为什么平等分区的数据工作速度更快?

发布于 2025-01-18 10:23:59 字数 232 浏览 1 评论 0原文

repartition()用新的分区重新分布了不同节点之间的数据,并且cocece做同样的事情,但它可以使某些原始分区保持不混乱并在其中添加其他分区。

为什么它总是在火花中发言,同样分区的数据将更快地处理。有什么原因是这样,为什么在不均匀分布的数据集的情况下它不会?

什么是停止不均匀分布的数据集更快地处理?

有什么想法吗?

repartition() redistribute the data among different nodes with new partitions and coalesce does the same thing but it keeps the some of original partitions without shuffling and add others partitions within those.

Why its always a say in spark that, equally partitioned data will be processed faster. Any reason why is it so and why it wont in case of not evenly distributed datasets ?

what's stopping not evenly distributed datasets to process faster ?

Any ideas ?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

天荒地未老 2025-01-25 10:23:59

数据的“分区”由“任务”作为“阶段”的一部分进行处理。一个阶段有许多并行运行的任务。 Spark“应用程序”由多个阶段组成。只有前一阶段完成后,下一阶段才能开始。

大分区需要处理更多数据,因此需要更长的时间。在某些情况下,资源会被专门(非)必要地持有更长时间。

A 'partition' of data is processed by a 'task' as part of a 'stage'. A stage has many tasks that run in parallel. A Spark 'app' consists of multiple stages. The next stage can only start when the prior stage has completed.

A large partition has more data to process and takes longer simply therefore. Resources are in some cases held longer exclusively (un)necessarily.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文