Hadoop 作业从多个目录获取输入文件

发布于 2024-10-09 23:13:58 字数 400 浏览 0 评论 0原文

我遇到的情况是，多个目录中存在多个压缩 gz 格式的文件（100 个以上，每个 2-3 MB）。例如
A1/B1/C1/part-0000.gz
A2/B2/C2/part-0000.gz
A1/B1/C1/part-0001.gz

我必须将所有这些文件输入到一个 Map 作业中。据我所知，为了使用 MultipleFileInputFormat，所有输入文件都需要位于同一目录中。是否可以将多个目录直接传递到作业中？
如果没有，那么是否可以有效地将这些文件放入一个目录而不发生命名冲突，或者将这些文件合并到 1 个压缩的 gz 文件中。
注意：我使用纯 java 来实现 Mapper，而不是使用 Pig 或 hadoop 流。

任何有关上述问题的帮助将不胜感激。
谢谢，
安基特

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

忆梦 2024-10-16 23:13:58

FileInputFormat.addInputPaths() 可以采用逗号分隔的多个文件列表，例如

FileInputFormat.addInputPaths("foo/file1.gz,bar/file2.gz")

FileInputFormat.addInputPaths() can take a comma separated list of multiple files, like

FileInputFormat.addInputPaths("foo/file1.gz,bar/file2.gz")

回复收藏 0 原文

~没有更多了~

关于作者

感悟人生的甜

暂无简介

0 文章

0 评论

21 人气

关注发私信

友情链接

文江博客

Hadoop 作业从多个目录获取输入文件

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

linfzu01

§对你不离不弃

可遇━不可求

枕梦

qq_3LFa8Q

JP

友情链接

Hadoop 作业从多个目录获取输入文件

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

linfzu01

§对你不离不弃

可遇━不可求

枕梦

qq_3LFa8Q

JP

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。