运行Hadoop MapReduce，是否可以调用HDFS之外的外部可执行文件

发布于 2024-12-02 21:46:28 字数 141 浏览 5 评论 0 原文

在我的映射器中，我想调用 HDFS 之外的工作节点上安装的外部软件。这可能吗？最好的方法是什么？

我知道这可能会带走 MapReduce 的一些优势/可扩展性，但我想在 HDFS 内进行交互，并在我的映射器中调用编译/安装的外部软件代码来处理一些数据。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

望她远 2024-12-09 21:46:28

映射器（和缩减器）就像盒子上的任何其他进程一样 - 只要 TaskTracker 用户有权运行可执行文件，这样做就没有问题。有几种方法可以调用外部进程，但由于我们已经使用 Java，ProcessBuilder 似乎是一个合乎逻辑的起点。

编辑：刚刚发现 Hadoop 有一个明确用于此目的的类： http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/util/Shell.html

回复收藏 0 原文

臻嫒无言 2024-12-09 21:46:28

这当然是可行的。您可能会发现最好使用 Hadoop Streaming。正如该网站上所说：

Hadoop 流是 Hadoop 发行版附带的实用程序。该实用程序允许您使用任何可执行文件或脚本作为映射器和/或化简器来创建和运行映射/化简作业。

我倾向于从 Hadoop Streaming 内部的外部代码开始。根据您的语言，可能有很多关于如何在流媒体中使用它的好例子；一旦你进入了你选择的语言，如果需要的话，你通常可以将数据传输到另一个程序。与在普通 Linux 机器上运行相比，我已经使用不同语言编写了多个层的程序，除了让外层与 Hadoop Streaming 一起工作之外，不需要额外的工作就可以很好地运行。