恢复存储在磁盘上的数据由Spark Workers
Spark存储在磁盘上的混音数据,而不论我们是否持续存在。洗牌很昂贵,因此可以理解。这通常在spark.local.dir
我想知道的是,如果工人重新启动/替换,以及是否存储了spark.local.dir.dir
中的一些数据,然后,当工人回来时,新产卵的Spark Worker是否能够重用目录中的内容?
存储可以像EB一样连接网络,以替换工人
Spark stores shuffle data on disk irrespective of whether we call persist on it. Shuffles are expensive so that's understandable. This usually goes in spark.local.dir
What I want to know is, if a worker restarts/replaced and if there was some data stored in spark.local.dir
, then, when the worker comes back up, does the newly spawned spark worker be able to reuse the contents from the directory?
The storage can be network attached like EBS for the case of worker getting replaced
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论