EMR 的输入数据如何跨节点分布[使用 MRJob]？

发布于 2024-10-19 01:12:04 字数 545 浏览 11 评论 0原文

我正在考虑使用 Yelp 的 MRJob 来使用 Amazon 的 Elastic Map Reduce 进行计算。在计算密集型工作中，我需要读取和写入大量数据。每个节点应该只获取一部分数据，我对这是如何完成的感到困惑。目前，我的数据位于 MongoDB 中，并存储在持久 EBS 驱动器上。

使用 EMR 时，如何在节点上分解数据？应该如何告诉 MRJob 将数据分区到哪个键上？ MRJob EMR 文档隐式保留分解步骤：如果您打开文件或连接对于 S3 键值存储，它如何划分键？它是否假设输入是一个序列并在此基础上自动对其进行分区？

也许有人可以使用 MRJob wordcount 示例来解释输入数据如何传播到节点。在该示例中，输入是一个文本文件——它是复制到所有节点，还是由一个节点串行读取并分段分布？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

浊酒尽余欢 2024-10-26 01:12:04

该示例假设您正在使用文本文件。我不确定您是否可以传入参数来使用 MongoDB hadoop 驱动程序。

你想在这里做什么？我正在研究 MongoDB hadoop 驱动程序，并且正在寻找示例和测试用例。

回复收藏 0 原文

~没有更多了~

关于作者

A君

暂无简介

文章

28 人气

关注发私信

友情链接

文江博客

EMR 的输入数据如何跨节点分布[使用 MRJob]？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

EMR 的输入数据如何跨节点分布[使用 MRJob]？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。