在 Spark中为什么task不是按照顺序执行
我在 spark-shell 下面运行一个最简单的 wordcount 程序,
val text = spark.read.textFile("/datasets/wordcount_512m.txt")
text.flatMap(line => line.split(" ")).groupByKey(identity).count().collect()
我的 hdfs 块大小为 128 MB,配置是 2 个 executor,每个 executor 2个核,也就是说这个任务会有4个partition。然后我看 Spark 的UI面板,在 stage 0 阶段是正常的,有4个task同时执行。
但是在 stage 1 阶段,我发现有些 task id 更大的任务会先执行,这是为什么。
就比如上面两张图,task id 为91的执行先于task id 为0执行,这是为什么。
这些提早执行的 task id 又是干什么的?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论