火花: - 在Spark中处理300 GB数据的空闲参数可能是什么
要处理300 GB数据,请您提供以下数字。
作业读取数据,制作数据框,应用一些过滤器和聚合并写入数据
我的数据群,使用640 gm RAM和160个内核。 (10个带有64 GB RAM和每个节点的节点包含16个内核)
- idle executor内存(如果不使用任何缓存)(没有任何溢出)
- idle executor内存(如果使用缓存)
- idle driver memory(不执行任何收集)
- 闲置核心(并行性核心,让我知道每个核心都处理多少数据)
- 最佳分区块数据大小(我认为默认为64 MB,但最佳的128 MB或256 MB是什么)
- 没有洗牌分区(Default 200)
注意: 始终考虑处理大数据视角并优化解决方案
To process 300 GB data, Could you please provide me the following figures.
Job reads the data , make the data frame , apply some filters and aggregates and write the data
I have good cluster with 640 GM RAM and 160 cores. (10 nodes with 64 GB RAM and each node contains 16 cores)
- Idle executor memory (in case not using any cache)(without any spill)
- Idle executor memory (in case using cache)
- Idle driver memory (not doing any collect)
- Idle cores (cores for parallelism, let me know each core handle how much data)
- Best partition block data size (I think default 64 MB but what is the best 128 MB or 256 MB)
- No of shuffle partitions (default 200)
Note: Always think about processing the large data perspective and optimize solution
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论