火花结构化的流媒体(pyspark)
我想根据一定条件将数据与Spark流媒体匹配,我想将此数据写入Kafka。通过将无与伦比的状态保持在一个状态下,该状态将在HDF中保留最多2天的数据。每个新传入数据都将尝试匹配此状态中的无与伦比的数据。如何使用此状态事件? (我正在使用Pyspark)
I want to match data with spark streaming based on a certain condition and I want to write this data to Kafka. By keeping the unmatched under a state and this state will keep a maximum of 2 days of data in hdfs. Each new incoming data will try to match the unmatched data in this state. How can I use this state event? (I'm using pyspark)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
pyspark
不支持默认情况下的状态实现
。只有scala/java api才能使用
mapgroupswithstate
在keyvaluegroupeddataset
上使用mapgroupswithstate
函数,但是您可以将2天的数据存储在其他地方(文件系统或某些SQL数据库),然后用于每个新传入数据,您都可以转到NOSQL数据库并获取相应的数据并执行其余的工作。
Pyspark
doesn't support stateful implementation by default
.Only Scala/Java API has this option using
mapGroupsWithState
function onKeyValueGroupedDataSet
But you can store 2 days of data in somewhere else ( file system or some no sql database ) and then for each new incoming data you can go to nosql database and fetch corresponding data and do the remaining stuff.