Hadoop中如何处理每天增加的数据

发布于 2025-01-04 06:17:29 字数 342 浏览 4 评论 0原文

在Hadoop中如何处理每天增加的数据：

例如：

第一天我可能在某个输入文件夹（例如hadoop/demo）中有100万个文件

第二天在同一个文件夹中，文件可能会从现有的100万个文件+另一个新的100万个文件增加文件总共有200万个。

同样的第三天第四天......继续前进。

我的限制是 ->第一天的文件不应在第二天处理。

（即）当添加新文件时，不应再次处理已处理的文件。更具体地说，只应处理新添加的文件，而应忽略较旧的文件。

所以请帮助我解决这个问题。

不过，如果您不理解该约束，请指出不清楚的地方，以便我可以详细说明我的约束！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

对你的占有欲 2025-01-11 06:17:29

它不是 hadoop 本身支持的某种思想，因为它是应用程序逻辑的一部分。
我建议使用一些基于 HDFS 的解决方案，这样您将拥有目录（或每天带有子目录的更好的目录层次结构），其中包含尚未处理的数据。
您的日常工作应该在那里获取所有数据，对其进行处理并移至“已处理”文件夹。
通常有意义的权衡是以某些文件的意外双重处理不会导致问题的方式进行逻辑处理。
。在这种情况下，作业在处理后但在移动之前崩溃不会产生问题。
您可以使用 oozie 的一些 wokrflow 工具来代替每日调度，这些工具能够通过数据可用性触发作业，尽管我个人还没有使用它们。