火花结构化的流媒体（pyspark）

发布于 2025-01-22 14:32:29 字数 133 浏览 5 评论 0原文

我想根据一定条件将数据与Spark流媒体匹配，我想将此数据写入Kafka。通过将无与伦比的状态保持在一个状态下，该状态将在HDF中保留最多2天的数据。每个新传入数据都将尝试匹配此状态中的无与伦比的数据。如何使用此状态事件？（我正在使用Pyspark）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

偏爱自由 2025-01-29 14:32:29

pyspark 不支持默认情况下的状态实现。

只有scala/java api才能使用mapgroupswithstate在keyvaluegroupeddataset上使用mapgroupswithstate函数，

但是您可以将2天的数据存储在其他地方（文件系统或某些SQL数据库），然后用于每个新传入数据，您都可以转到NOSQL数据库并获取相应的数据并执行其余的工作。

回复收藏 0 原文

~没有更多了~

关于作者

半山落雨半山空

暂无简介

文章

26 人气

关注发私信

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

火花结构化的流媒体（pyspark）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

櫻之舞