来自 HBase 的 Hadoop MapReduce 流式传输
我正在构建一个 Hadoop (0.20.1) mapreduce 作业,它使用 HBase (0.20.1) 作为数据源和数据接收器。我想用 Python 编写这项工作,这要求我使用 hadoop-0.20.1-streaming.jar 将数据流式传输到我的 Python 脚本或从我的 Python 脚本流式传输数据。如果数据源/接收器是 HDFS 文件,则此方法可以正常工作。
Hadoop 是否支持从 HBase 流式传输到 HBase 进行映射缩减?
I'm building a Hadoop (0.20.1) mapreduce job that uses HBase (0.20.1) as both the data source and data sink. I would like to write the job in Python which has required me to use hadoop-0.20.1-streaming.jar to stream data to and from my Python scripts. This works fine if the data source/sink are HDFS files.
Does Hadoop support streaming from/to HBase for mapreduce?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这似乎符合我的要求,但它不是 Hadoop 发行版的一部分。任何其他建议或意见仍然欢迎。
http://github.com/wanpark/hadoop-hbase-streaming
This seems to do what I want but it's not part of the Hadoop distribution. Any other suggestions or comments still welcome.
http://github.com/wanpark/hadoop-hbase-streaming