G1GC稳定用于大型火花应用

发布于 2025-01-27 10:18:40 字数 313 浏览 1 评论 0原文

我们的数据管道目前正在Spark 2.4和Java版本1.8上运行，执行所有ETL步骤大约需要10个小时。

目前，我们注意到驾驶员内存堆已升高，并在管道尽头造成了很多完整的GC（堆的堆是70克），即使使用了所有完整的GC，堆仍保持最高水平，请记住这是火花司机。

我们目前正在使用-XX：+XX：+USEG1GC进行测试后使用-XX：+useParallelGC。我们注意到，完整的GC的数量很大，因此想更改为G1GC。但是我从同事那里听说G1GC几年前不稳定，想知道G1GC现在是稳定的GC，现在是大型Spark应用程序（在我们的情况下，运行10多个小时，50G+ HEAP尺寸）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

惜醉颜 2025-02-03 10:18:40

（这是一条评论增长了）

首先，听起来您有记忆泄漏。从您的描述来看，这听起来好像您没有释放旧的gen。移至G1无法解决。

请注意，我不熟悉您的特定用例，也不知道是否有延迟要求。
话虽如此，我们的实例与G1和800 GB一起运行J8（有时更大的记录为1.5 tb）堆积而没有任何重大问题。
请注意，在这些堆尺寸上，可能会发生怪异的边缘案例，并且配置可能很脆弱。但它用于生产。
我们拥有的一个人是HW线的数量至关重要。即使他们大部分时间都没有做任何事情，一旦GC移入混合周期，HW线的数量也变得非常重要。

一般而言，如果这是没有延迟要求的批处理样式应用程序，请与并行收集器保持联系并修复内存泄漏。 G1同时消耗CPU，并且并行收集器不会。

回复收藏 0 原文

~没有更多了~