火花: - 在Spark中处理300 GB数据的空闲参数可能是什么

发布于 2025-02-01 02:03:54 字数 470 浏览 2 评论 0原文

要处理300 GB数据,请您提供以下数字。

作业读取数据,制作数据框,应用一些过滤器和聚合并写入数据

我的数据群,使用640 gm RAM和160个内核。 (10个带有64 GB RAM和每个节点的节点包含16个内核)

  1. idle executor内存(如果不使用任何缓存)(没有任何溢出)
  2. idle executor内存(如果使用缓存)
  3. idle driver memory(不执行任何收集)
  4. 闲置核心(并行性核心,让我知道每个核心都处理多少数据)
  5. 最佳分区块数据大小(我认为默认为64 MB,但最佳的128 MB或256 MB是什么)
  6. 没有洗牌分区(Default 200)

注意: 始终考虑处理大数据视角并优化解决方案

To process 300 GB data, Could you please provide me the following figures.

Job reads the data , make the data frame , apply some filters and aggregates and write the data

I have good cluster with 640 GM RAM and 160 cores. (10 nodes with 64 GB RAM and each node contains 16 cores)

  1. Idle executor memory (in case not using any cache)(without any spill)
  2. Idle executor memory (in case using cache)
  3. Idle driver memory (not doing any collect)
  4. Idle cores (cores for parallelism, let me know each core handle how much data)
  5. Best partition block data size (I think default 64 MB but what is the best 128 MB or 256 MB)
  6. No of shuffle partitions (default 200)

Note: Always think about processing the large data perspective and optimize solution

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文