hadoop：支持MapReduce作业的多个输出

发布于 2024-12-06 06:25:04 字数 498 浏览 1 评论 0原文

似乎 Hadoop 支持它（参考），但我不知道如何使用它。

我想：

a.) Map - Read a huge XML file and load the relevant data and pass on to reduce  
b.) Reduce - write two .sql files for different tables

为什么我选择 map/reduce 是因为我必须对磁盘上超过 100k（可能更多）的 xml 文件执行此操作。欢迎任何更好的建议。

任何解释如何使用它的资源/教程都值得赞赏。

我正在使用 Python，并且想了解如何使用 streaming 实现此目的，

谢谢

原文

Seems like it is supported in Hadoop(reference), but I dont know how to use this.

I want to :

a.) Map - Read a huge XML file and load the relevant data and pass on to reduce  
b.) Reduce - write two .sql files for different tables

Why I am choosing map/reduce is because I have to do this for over 100k(may be many more) xml files residing ondisk. any better suggestions are welcome

Any resources/tutorials explaining how to use this is appreciated.

I am using Python and would want to learn how to achieve this using streaming

Thank you

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

吻安 2024-12-13 06:25:05

可能不是一个优雅的解决方案，但您可以创建两个模板，以便在作业完成后将化简任务的输出转换为所需的格式。通过编写 shell 脚本可以实现很多自动化，该脚本将查找reduce 输出并在其上应用模板。使用 shell 脚本，转换按顺序发生，并且不关心集群中的 n 台机器。

或者，在减少任务中，您可以将两种输出格式创建到带有某些分隔符的单个文件中，并稍后使用分隔符将它们拆分。在这种方法中，由于转换发生在reduce中，因此转换分布在集群中的所有节点上。

回复收藏 0 原文

~没有更多了~

关于作者

秋叶绚丽

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

hadoop：支持MapReduce作业的多个输出

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

hadoop：支持MapReduce作业的多个输出

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。