为什么平等分区的数据工作速度更快?
repartition()
用新的分区重新分布了不同节点之间的数据,并且cocece
做同样的事情,但它可以使某些原始分区保持不混乱并在其中添加其他分区。
为什么它总是在火花中发言,同样分区的数据将更快地处理。有什么原因是这样,为什么在不均匀分布的数据集的情况下它不会?
什么是停止不均匀分布的数据集
更快地处理?
有什么想法吗?
repartition()
redistribute the data among different nodes with new partitions and coalesce
does the same thing but it keeps the some of original partitions without shuffling and add others partitions within those.
Why its always a say in spark that, equally partitioned data will be processed faster. Any reason why is it so and why it wont in case of not evenly distributed datasets ?
what's stopping not evenly distributed datasets
to process faster ?
Any ideas ?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
数据的“分区”由“任务”作为“阶段”的一部分进行处理。一个阶段有许多并行运行的任务。 Spark“应用程序”由多个阶段组成。只有前一阶段完成后,下一阶段才能开始。
大分区需要处理更多数据,因此需要更长的时间。在某些情况下,资源会被专门(非)必要地持有更长时间。
A 'partition' of data is processed by a 'task' as part of a 'stage'. A stage has many tasks that run in parallel. A Spark 'app' consists of multiple stages. The next stage can only start when the prior stage has completed.
A large partition has more data to process and takes longer simply therefore. Resources are in some cases held longer exclusively (un)necessarily.