当前位置：文江博客话题详情

在 Hadoop 流中链接多个 MapReduce 任务

发布于 2024-10-11 01:17:18 字数 205 浏览 10 评论 0原文

我所处的场景是我有两个 MapReduce 作业。我对 python 更熟悉，并计划使用它来编写 mapreduce 脚本，并使用 hadoop 流来实现同样的目的。当使用hadoop流时，是否可以方便地链接以下形式的两个作业？

地图1 ->减少1->地图2-> 我听说过很多

在java中完成此任务的方法，但我需要一些用于Hadoop流的方法。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

甩你一脸翔 2024-10-18 01:17:18

这是一篇关于如何使用级联和流式传输的精彩博客文章。
http://www.xcombinator。 com/2009/11/18/how-to-use-cascading-with-hadoop-streaming/

这里的值是您可以在同一应用程序中将 java（级联查询流）与自定义流操作混合。我发现这比其他方法要脆弱得多。

请注意，Cascading 中的 Cascade 对象允许您链接多个 Flow（通过上面的博客文章，您的 Streaming 作业将成为 MapReduceFlow）。

免责声明：我是 Cascading 的作者

回复收藏 0 原文

孤檠 2024-10-18 01:17:18

您可以尝试 Yelp 的 MRJob 来获取您的工作完成..它是一个开源MapReduce库，允许您编写可以在Hadoop集群或EC2上的Hadoop Streaming上运行的链式作业..它非常优雅且易于使用，并且有一个名为steps的方法，您可以覆盖它指定您希望数据经过的确切映射器和缩减器链。

查看源代码：https://github.com/Yelp/mrjob
和文档位于 http://packages.python.org/mrjob/

回复收藏 0 原文

最后的乘客 2024-10-18 01:17:18

通常，我使用 Hadoop 流和 Python 执行此操作的方式是在我创建的 bash 脚本中运行作业。我总是从 bash 脚本运行，这样我就可以收到有关错误的电子邮件和有关成功的电子邮件，并使它们更灵活地从包装它的另一个 Ruby 或 Python 脚本传递参数，这些脚本可以在更大的事件处理系统中工作。

因此，第一个命令（作业）的输出是下一个命令（作业）的输入，它可以是 bash 脚本中作为参数从命令行传入的变量（简单而快速）

您可能需要查看 Oozie < a href="http://yahoo.github.com/oozie/design.html" rel="nofollow">http://yahoo.github.com/oozie/design.html Hadoop 的工作流引擎这也将有助于做到这一点（支持流媒体，不是问题）。我开始时没有这个，所以我最终不得不构建自己的东西，但这是一个 kewl 系统并且很有用！！！！

回复收藏 0 原文