在 Spark中为什么task不是按照顺序执行

发布于 2022-09-12 02:40:49 字数 672 浏览 36 评论 0

我在 spark-shell 下面运行一个最简单的 wordcount 程序,

val text = spark.read.textFile("/datasets/wordcount_512m.txt")
text.flatMap(line => line.split(" ")).groupByKey(identity).count().collect()

我的 hdfs 块大小为 128 MB,配置是 2 个 executor,每个 executor 2个核,也就是说这个任务会有4个partition。然后我看 Spark 的UI面板,在 stage 0 阶段是正常的,有4个task同时执行。
image.png
但是在 stage 1 阶段,我发现有些 task id 更大的任务会先执行,这是为什么。
image.png
image.png
就比如上面两张图,task id 为91的执行先于task id 为0执行,这是为什么。

这些提早执行的 task id 又是干什么的?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文