Amazon Elastic MapReduce 上的多个文件作为输入

发布于 2024-11-25 12:33:19 字数 469 浏览 0 评论 0原文

我正在尝试使用自定义 jar 在 Elastic MapReduce (EMR) 上运行作业。我正在尝试处理单个目录中的大约 1000 个文件。当我使用参数 s3n://bucketname/compressed/*.xml.gz 提交作业时，出现“匹配 0 个文件”错误。如果我只传递文件的绝对路径（例如s3n://bucketname/compressed/00001.xml.gz），它运行正常，但只有一个文件被处理。我尝试使用目录的名称（s3n://bucketname/compressed/），希望其中的文件能够被处理，但这只是将目录传递给作业。

同时，我有一个较小的本地 hadoop 安装。这样，当我使用通配符 (/path/to/dir/on/hdfs/*.xml.gz) 传递工作时，它工作正常并且所有 1000 个文件都正确列出。

如何让 EMR 列出我的所有文件？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

弃爱 2024-12-02 12:33:19

我不知道 EMR 如何列出所有文件，但这里有一段对我有用的代码：

        FileSystem fs = FileSystem.get(URI.create(args[0]), job.getConfiguration());
        FileStatus[] files = fs.listStatus(new Path(args[0]));
        for(FileStatus sfs:files){
            FileInputFormat.addInputPath(job, sfs.getPath());
        }

它将列出输入目录中的所有文件，您可以对这些文件执行任何您想要的操作

I don't know how EMR lists all the files, but here's a piece of code which works for me:

        FileSystem fs = FileSystem.get(URI.create(args[0]), job.getConfiguration());
        FileStatus[] files = fs.listStatus(new Path(args[0]));
        for(FileStatus sfs:files){
            FileInputFormat.addInputPath(job, sfs.getPath());
        }

It will list all the files which are in the input directory, and you can do to those anything that you will

回复收藏 0 原文

~没有更多了~