恢复存储在磁盘上的数据由Spark Workers

发布于 2025-01-30 19:55:37 字数 224 浏览 1 评论 0原文

Spark存储在磁盘上的混音数据,而不论我们是否持续存在。洗牌很昂贵,因此可以理解。这通常在spark.local.dir

我想知道的是,如果工人重新启动/替换,以及是否存储了spark.local.dir.dir中的一些数据,然后,当工人回来时,新产卵的Spark Worker是否能够重用目录中的内容?

存储可以像EB一样连接网络,以替换工人

Spark stores shuffle data on disk irrespective of whether we call persist on it. Shuffles are expensive so that's understandable. This usually goes in spark.local.dir

What I want to know is, if a worker restarts/replaced and if there was some data stored in spark.local.dir, then, when the worker comes back up, does the newly spawned spark worker be able to reuse the contents from the directory?

The storage can be network attached like EBS for the case of worker getting replaced

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文