spark 生成RDD的运行机制

发布于 2022-09-03 12:52:07 字数 124 浏览 20 评论 0

生成RDD其中一种方式Parallelize,运行原理是什么,是在action时候,把数据通过网络传递给worker节点的内存中吗,textfile可以理解,各个worker分布读取到自己的内存中,但是Parallelize怎么理解呢

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

泪意 2022-09-10 12:52:07

和textfile类似的道理,相当于把本地的一个集合变成rdd,也是lazy的。在真正计算的时候,会分布拷贝到各个worker上

第一个参数就是本地集合数据,第二个参数是分片数,就是希望分成多少个任务并行计算。不指定的话,spark会根据worker情况默认分配个值

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文