怎样让spark定时读数据库数据呢?
我做大数据分析,我想用spark定时去读cassandra数据(轮询),分析结果存到mysql,用scala写程序,该如何实现...?需要用spark streaming吗?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
我做大数据分析,我想用spark定时去读cassandra数据(轮询),分析结果存到mysql,用scala写程序,该如何实现...?需要用spark streaming吗?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(4)
标准的spark streaming场景,不过不会scala
其实你可以像单机程序那样,执行一个函数,然后休眠一段时间,然后再循环。。。
对实时性要求不高可以不上spark streaming。如果上,最好有另外一个程序作为发送端,将数据发布到kafka上供spark消费。具体的代码可以看官方的demo
可以写一个定时脚步。
例如在Linux 服务器上,修改crontab -e
10 10,18 * /home/ane/zhong_config/runSignException.sh
每到10点10分和18点10分 运行 这个脚步,脚步中可以调用执行Scala的代码。
不知道这样是否符合你的要求,不需要sparkstreaming 复杂的引用
scala 的 dataframe 支持从很多数据源,可以方便读取数据,建议去找找资料。