flume+kafka+spark Streaming监听处理文件,但需要streaming能对完整的单个文件进行处理。
用flume+kafka+spark streaming框架分析数据,数据文件是导入的一个一个的,也就是完整的导入的,因为这些文件中每个文件的数据都是应用场景中一次事件的数据,具有独立性,现在希望在spark这边能对完整的单个数据文件进行处理。
场景如下:往flume监听的文件中一次性导入多个文件,然后这些数据传递到spark streaming中,现在希望spark在处理这些数据时以一个文件为单位来处理数据。如:两个文件
1.txt:123n123
2.txt:234n234
现在spark收到数据后希望只对1.txt中的数据进行处理,处理完后再处理2.txt。
我觉得最佳方案是在flume,kafka和streaming这一套流程中进行设置,使得传输过程中按单个文件传输,但不知道怎么弄也不知道行不行,所以过来请教各位大佬,希望大佬们提点建议。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
相当于要保证数据的顺序性?按照你目前的方案有哪些问题是担忧的?