当前位置：文江博客话题详情

spark 生成RDD的运行机制

发布于 2022-09-03 12:52:07 字数 124 浏览 26 评论 0

生成RDD其中一种方式Parallelize，运行原理是什么，是在action时候，把数据通过网络传递给worker节点的内存中吗，textfile可以理解，各个worker分布读取到自己的内存中，但是Parallelize怎么理解呢

需要登录才能够评论，你可以免费注册一个本站的账号。

泪意 2022-09-10 12:52:07

和textfile类似的道理，相当于把本地的一个集合变成rdd，也是lazy的。在真正计算的时候，会分布拷贝到各个worker上

第一个参数就是本地集合数据，第二个参数是分片数，就是希望分成多少个任务并行计算。不指定的话，spark会根据worker情况默认分配个值

~没有更多了~

暂无简介

文章

29 人气

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0