如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat?
我想编写多个输出文件。 如何使用 Job 而不是 JobConf 来执行此操作?
I would like to write multiple output files.
How do I do this using Job instead of JobConf?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
创建基于密钥的输出文件名的简单方法
MultipleTextOutputFormat 类
作业配置
运行此代码,您将在 HDFS 中看到以下文件,其中 /output 是作业输出目录:
希望它有所帮助。
an easy way to to create key based output file names
MultipleTextOutputFormat class
job config
Run this code and you’ll see the following files in HDFS, where /output is the job output directory:
hopes it helps.
文档说使用
org.apache.hadoop.mapreduce.lib.output.MultipleOutputs
代替。下面是使用 MultipleOutputs 的代码片段。不幸的是,我没有写它,也没有花太多时间来处理它......所以我不知道为什么事情会在哪里。我分享希望它有帮助。 :)
作业设置
减速器设置
编辑:添加了到 MultipleOutputs 的链接。
The docs say to use
org.apache.hadoop.mapreduce.lib.output.MultipleOutputs
instead.Below is a snippet of code that uses MultipleOutputs. Unfortunately I didn't write it and haven't spent much time with it... So I don't know exactly why things are where. I share with the hopes it helps. :)
Job Setup
Reducer Setup
EDIT: Added link to MultipleOutputs.