SparkStream checkpoint 的几个问题

发布于 2022-09-11 17:59:29 字数 453 浏览 22 评论 0

刚用spark streaming,有几个关于checkpoint的疑问:

  1. checkpoint有两种,一种是对driver的meta的,一种是对data的。手册上说,只有用stateful transformation的时候,才会写data的checkpoint。那么,我如果没用stateful transformation,data的checkpoint数据还会写吗?如果不写,我重新restart的时候,丢失的rdd要从哪里获取?
  2. batch job里的checkpoint我是可以指定那个rdd写的,或者说是在哪一步写checkpoint。那么在streaming里,我需要用foreachRDD{rdd.checkpoint()}这种吗?
  3. 如果在spark streaming里我不显示写rdd.checkpoint(),那么spark是怎么决定哪个rdd要写data checkpoint的文件的?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

醉城メ夜风 2022-09-18 17:59:29

你不写那就不会做checkpoint,rdd就会重新从原始数据计算得到
看看checkpont的实现

https://www.runexception.com/...

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文