如何将 Hadoop Streaming 与 LZO 压缩序列文件一起使用？

发布于 2024-10-18 07:49:02 字数 641 浏览 3 评论 0原文

我正在尝试使用 Amazon 的 Elastic Map Reduce 来处理 Google ngrams 数据集。 http://aws.amazon.com/datasets/8172056142375670 有一个公共数据集，我想要使用 Hadoop 流。

对于输入文件，它表示“我们将数据集存储在 Amazon S3 中的单个对象中。该文件采用块级 LZO 压缩的序列文件格式。序列文件键是存储为 LongWritable 的数据集的行号， value 是存储为 TextWritable 的原始数据。”

我需要做什么才能使用 Hadoop Streaming 处理这些输入文件？

我尝试在我的参数中添加一个额外的“-inputformat SequenceFileAsTextInputFormat”，但这似乎不起作用——我的工作由于某些未指定的原因而不断失败。我还缺少其他论点吗？

我尝试使用一个非常简单的身份作为我的映射器和减速器，

#!/usr/bin/env ruby

STDIN.each do |line|
  puts line
end

但这不起作用。

原文

I'm trying to play around with the Google ngrams dataset using Amazon's Elastic Map Reduce. There's a public dataset at http://aws.amazon.com/datasets/8172056142375670, and I want to use Hadoop streaming.

For the input files, it says "We store the datasets in a single object in Amazon S3. The file is in sequence file format with block level LZO compression. The sequence file key is the row number of the dataset stored as a LongWritable and the value is the raw data stored as TextWritable."

What do I need to do in order to process these input files with Hadoop Streaming?

I tried adding an extra "-inputformat SequenceFileAsTextInputFormat" to my arguments, but this doesn't seem to work -- my jobs keep failing for some unspecified reason. Are there other arguments I'm missing?

I've tried using a very simple identity as both my mapper and reducer

#!/usr/bin/env ruby

STDIN.each do |line|
  puts line
end

but this doesn't work.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

空心空情空意 2024-10-25 07:49:02

lzo 打包为 Elastic MapReduce 的一部分，因此无需安装任何东西。

我刚刚尝试过这个，它有效......

 hadoop jar ~hadoop/contrib/streaming/hadoop-streaming.jar \
  -D mapred.reduce.tasks=0 \
  -input s3n://datasets.elasticmapreduce/ngrams/books/20090715/eng-all/1gram/ \
  -inputformat SequenceFileAsTextInputFormat \
  -output test_output \
  -mapper org.apache.hadoop.mapred.lib.IdentityMapper

lzo is packaged as part of elastic mapreduce so there's no need to install anything.

i just tried this and it works...

 hadoop jar ~hadoop/contrib/streaming/hadoop-streaming.jar \
  -D mapred.reduce.tasks=0 \
  -input s3n://datasets.elasticmapreduce/ngrams/books/20090715/eng-all/1gram/ \
  -inputformat SequenceFileAsTextInputFormat \
  -output test_output \
  -mapper org.apache.hadoop.mapred.lib.IdentityMapper

回复收藏 0 原文

蓝眼睛不忧郁 2024-10-25 07:49:02

由于许可问题，Lzo 压缩已从 Hadoop 0.20.x 中删除。如果要处理 lzo 压缩的序列文件，则必须在 hadoop 集群中安装和配置 lzo 本机库。

Kevin 的 Hadoop-lzo 项目是我所知道的当前工作解决方案。我已经尝试过了。有用。

在操作系统上安装（如果尚未安装）lzo-devel 软件包。这些软件包在操作系统级别启用 lzo 压缩，否则 hadoop lzo 压缩将无法工作。

按照 hadoop-lzo 自述文件中指定的说明进行编译。构建后，您将获得 hadoop-lzo-lib jar 和 hadoop lzo 本机库。确保从配置集群的机器（或同一架构的机器）编译它。

还需要 Hadoop 标准本机库，Linux 发行版中默认提供了这些库。如果您使用的是 Solaris，您还需要从源代码构建 hadoop 以获得标准的 hadoop 本机库。

完成所有更改后重新启动集群。

回复收藏 0 原文

剩一世无双 2024-10-25 07:49:02

您可能想看看这个 https://github.com/kevinweil/hadoop-lzo

回复收藏 0 原文

小霸王臭丫头 2024-10-25 07:49:02

我使用 lzo 得到了奇怪的结果，并且我的问题通过其他一些编解码器得到了解决

-D mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec
-D mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec

然后事情就正常了。您不需要（也许也不应该）更改-inputformat。

Version: 0.20.2-cdh3u4, 214dd731e3bdb687cb55988d3f47dd9e248c5690

I have weird results use lzo and my problem get resolved with some other codec

-D mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec
-D mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec

Then things just work. You don't need (maybe also shouldn't) to change the -inputformat.

Version: 0.20.2-cdh3u4, 214dd731e3bdb687cb55988d3f47dd9e248c5690

回复收藏 0 原文

~没有更多了~

关于作者

孤云独去闲

暂无简介

0 文章

0 评论

25 人气

关注发私信

友情链接

文江博客

如何将 Hadoop Streaming 与 LZO 压缩序列文件一起使用？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

daid

我心依旧

晒暮凉

微信用户

DS

〆凄凉。

友情链接

如何将 Hadoop Streaming 与 LZO 压缩序列文件一起使用？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

daid

我心依旧

晒暮凉

微信用户

DS

〆凄凉。

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。