Hadoop:压缩仅 Map 作业的输出
我有一个仅地图作业,以 TextOutputFormat 输出。
我目前看到三种压缩输出的方法:
通过定义要通过mapred.compress.map.output.*压缩的映射
通过mapred.output.compression.*定义要压缩的输出
通过定义要压缩的TextOutputFormat TextOutputFormat.setcompressOutput()
通过组合前 3 种可能性中的一种或多种。
关于如何正确执行此操作有任何见解吗?
I have a a map-only job that outputs in TextOutputFormat.
I currently see three ways of compressing my output:
by defining map to compress through mapred.compress.map.output.*
by defining output to compress through mapred.output.compression.*
by defining the TextOutputFormat to compress through TextOutputFormat.setCompressOutput()
by composing one or more of the first 3 possibilities.
Any insight on how to do this properly?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
选项 1 仅适用于中间输出,选项 2 也可以,但更多的是 mapred-site.xml 方法,选项 3 是最佳选择。
Option 1 is ONLY for intermediate output, Option 2 works as well but is more of a mapred-site.xml approach, Option 3 is the way to go.