Spark 任务读取超过 128MB 的块大小?这怎么可能?
我加载了 9.4 GB 的文件,因此它创建了 74 个分区,这是正确的 (74 * 128MB = 9472)。但我发现很少有任务读取超过 128MB 的数据,例如 160MB 等,如下所示。这怎么可能?当分区大小为 128 MB 时,如何读取更多内容?
I loaded a file of 9.4 GB so it created 74 partitions which is correct (74 * 128MB = 9472). But I see that few tasks are reading more than 128MB, like 160 MB and all like shown below. How can this be possible? When the partition size is 128 MB, how can it read more than that?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
文件行(行)可能不完全位于 128mb 的块中和/或数据类型的内存表示稍大
The file lines (rows) are likely not exactly in blocks of 128mb and/or the memory representation of the data types is slightly larger