驾驶员内存未在火花结构化流中清理

发布于 2025-01-18 16:37:54 字数 467 浏览 3 评论 0原文

我正在使用Spark结构化流媒体工作在AWS平台中执行我的ETL 我的驾驶员内存没有被清除。这项工作是阅读从运动性和写作到S3的事件以下是我的火花配置。另外，附加包含驱动程序JVM HEAP使用图的屏幕快照图（1表示100％）

spark.cleaner.periodicGC.interval=1min
spark.driver.extraJavaOptions=-XX:+UseG1GC
spark.cleaner.referenceTracking.blocking=false

原文

I am using my Spark Structured Streaming job to perform my ETL in AWS platform
My Driver memory is not getting cleared-up. The job is reading the events from Kinesis and writing to S3
Below are the my Spark configurations. Also attaching screenshot containing Driver JVM heap usage graph for reference (1 means 100%)

spark.cleaner.periodicGC.interval=1min
spark.driver.extraJavaOptions=-XX:+UseG1GC
spark.cleaner.referenceTracking.blocking=false

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

困倦 2025-01-25 16:37:54

当纱线中的 Spark UI 列出大量作业时，我们就看到了这一点。我们限制了 UI 中显示的作业数量（例如 100 个等）、任务和阶段。这有助于减少驱动程序内存使用量。你可以尝试一下

spark.ui.retainedJobs, spark.ui.retainedStages,spark.ui.retainedTasks, spark.worker.ui.retainedExecutors,spark.worker.ui.retainedDrivers, spark.sql.ui.retainedExecutions,spark.streaming.ui.retainedBatches

We had seen this when Spark UI in yarn had lots of jobs being listed. We limited the no.of jobs (for ex. to 100 etc), tasks and stages shown in UI. This helped decrease driver memory usage. You can give a try

spark.ui.retainedJobs, spark.ui.retainedStages,spark.ui.retainedTasks, spark.worker.ui.retainedExecutors,spark.worker.ui.retainedDrivers, spark.sql.ui.retainedExecutions,spark.streaming.ui.retainedBatches

回复收藏 0 原文

~没有更多了~