火花结构化的流媒体(pyspark)

发布于 2025-01-22 14:32:29 字数 133 浏览 0 评论 0原文

我想根据一定条件将数据与Spark流媒体匹配,我想将此数据写入Kafka。通过将无与伦比的状态保持在一个状态下,该状态将在HDF中保留最多2天的数据。每个新传入数据都将尝试匹配此状态中的无与伦比的数据。如何使用此状态事件? (我正在使用Pyspark)

I want to match data with spark streaming based on a certain condition and I want to write this data to Kafka. By keeping the unmatched under a state and this state will keep a maximum of 2 days of data in hdfs. Each new incoming data will try to match the unmatched data in this state. How can I use this state event? (I'm using pyspark)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

偏爱自由 2025-01-29 14:32:29

pyspark 不支持默认情况下的状态实现

只有scala/java api才能使用mapgroupswithstatekeyvaluegroupeddataset上使用mapgroupswithstate函数,

但是您可以将2天的数据存储在其他地方(文件系统或某些SQL数据库),然后用于每个新传入数据,您都可以转到NOSQL数据库并获取相应的数据并执行其余的工作。

Pyspark doesn't support stateful implementation by default.

Only Scala/Java API has this option using mapGroupsWithState function on KeyValueGroupedDataSet

But you can store 2 days of data in somewhere else ( file system or some no sql database ) and then for each new incoming data you can go to nosql database and fetch corresponding data and do the remaining stuff.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文