在 Spark中为什么task不是按照顺序执行

我在 spark-shell 下面运行一个最简单的 wordcount 程序，

val text = spark.read.textFile("/datasets/wordcount_512m.txt")
text.flatMap(line => line.split(" ")).groupByKey(identity).count().collect()

我的 hdfs 块大小为 128 MB，配置是 2 个 executor，每个 executor 2个核，也就是说这个任务会有4个partition。然后我看 Spark 的UI面板，在 stage 0 阶段是正常的，有4个task同时执行。

但是在 stage 1 阶段，我发现有些 task id 更大的任务会先执行，这是为什么。

就比如上面两张图，task id 为91的执行先于task id 为0执行，这是为什么。

这些提早执行的 task id 又是干什么的?

与恶龙缠斗过久,自身亦成为恶龙；凝视深渊过久,深渊将回以凝视…

Categories

在 Spark中为什么task不是按照顺序执行

Please log in or register to add a comment.

Please log in or register to answer this question.

1 Answer

Please log in or register to add a comment.

Just Browsing Browsing

Most popular tags