flume+kafka+spark Streaming监听处理文件,但需要streaming能对完整的单个文件进行处理。

发布于 2022-09-11 19:45:01 字数 400 浏览 32 评论 0

用flume+kafka+spark streaming框架分析数据,数据文件是导入的一个一个的,也就是完整的导入的,因为这些文件中每个文件的数据都是应用场景中一次事件的数据,具有独立性,现在希望在spark这边能对完整的单个数据文件进行处理。
场景如下:往flume监听的文件中一次性导入多个文件,然后这些数据传递到spark streaming中,现在希望spark在处理这些数据时以一个文件为单位来处理数据。如:两个文件
1.txt:123n123
2.txt:234n234
现在spark收到数据后希望只对1.txt中的数据进行处理,处理完后再处理2.txt。
我觉得最佳方案是在flume,kafka和streaming这一套流程中进行设置,使得传输过程中按单个文件传输,但不知道怎么弄也不知道行不行,所以过来请教各位大佬,希望大佬们提点建议。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

↙厌世 2022-09-18 19:45:01

相当于要保证数据的顺序性?按照你目前的方案有哪些问题是担忧的?

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文