是否需要检查点在流媒体工作中进行三角洲湖合并操作
我有一个了解,对于a spark流媒体合并要有一个检查点位置指定在作业重新启动上不处理两次的内容(即使操作是愿意的,并且在示例笔记本)。正确吗?
I have an understanding that for a spark streaming merge it's helpful to have a checkpoint location specified to not process stuff twice on the job restart (even if the operation is idempotent and ins't mentioned in example notebook). Is it correct?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
如果您没有指定检查点的位置,则每次将重新处理所有数据时。
If you don't specify the location of the checkpoint, each time all the data will be reprocessed.