获取流式hadoop程序中的输入文件名

发布于 2024-12-05 01:37:52 字数 375 浏览 3 评论 0原文

在用 Java 编写程序时，我可以使用 FileSplit 找到映射器类中的输入文件的名称。

当我用Python编写程序时（使用流式传输？）是否有相应的方法可以做到这一点？

我在apache上的hadoop流式传输文档中发现了以下内容：

请参阅配置的参数。在执行流作业期间， “mapred”参数的名称被转换。点 (.) 变为下划线 (_)。例如，mapred.job.id 变为 mapred_job_id 和mapred.jar 变为mapred_jar。在您的代码中，使用参数名称带下划线。

但我仍然不明白如何在我的映射器中使用它。

非常感谢任何帮助。

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

清泪尽 2024-12-12 01:37:52

根据《Hadoop : The Definitive Guide》

Hadoop 将作业配置参数设置为环境变量流媒体节目。但是，它将非字母数字字符替换为下划线，以确保它们是有效的名称。以下 Python 表达式说明了如何从 Python Streaming 脚本中检索 mapred.job.id 属性的值：

os.environ["mapred_job_id"]

您还可以通过应用以下命令为 MapReduce 启动的 Streaming 进程设置环境变量： Streaming 启动程序的 -cmdenv 选项（对于您要设置的每个变量一次）。例如，以下设置 MAGIC_PARAMETER 环境变量：

-cmdenv MAGIC_PARAMETER=abracadabra

回复收藏 0 原文

写下不归期 2024-12-12 01:37:52

通过解析 mapreduce_map_input_file（新）或 ~~map_input_file~~（已弃用）环境变量，您将获得映射输入文件名。

注意：
这两个环境变量区分大小写，所有字母都是小写。

回复收藏 0 原文

独闯女儿国 2024-12-12 01:37:52

Hadoop 2.x 的新 ENV_VARIABLE 是 MAPREDUCE_MAP_INPUT_FILE

回复收藏 0 原文

~没有更多了~

关于作者

最美不过初阳

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

获取流式hadoop程序中的输入文件名

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

Promise

qq_lbRlsh

待＂谢繁草

yy2010hell

漫无边际

傲娇萝莉攻

友情链接

获取流式hadoop程序中的输入文件名

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

Promise

qq_lbRlsh

待＂谢繁草

yy2010hell

漫无边际

傲娇萝莉攻

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。