如何为 AWS MapReduce 准备数据和后续处理数据

发布于 2024-10-11 12:01:34 字数 334 浏览 2 评论 0原文

我正在使用 Amazon MapReduce Web 服务来完成一个大学项目。为了将数据用于 MapReduce，我需要将它们从关系数据库 (AWS RDS) 转储到 S3。 MapReduce 完成后，我需要拆分输出文件并将其块加载到它们自己的 S3 存储桶中。

在 Amazon Web Services 环境中执行此操作的好方法是什么？

最好的情况：除了用于 RDS 和 MapReduce 的实例之外，是否可以在不使用额外 EC2 实例的情况下完成此任务？

我使用 python 作为映射器和减速器函数，并使用 json 说明符作为 MapReduce 作业流程。除此之外，我不受语言或技术的限制。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

北座城市 2024-10-18 12:01:34

如果您查看 Amazon Elastic MapReduce 开发人员指南，您需要指定S3中输入数据、输出数据、Mapper脚本和Reducer脚本的位置，以创建MapReduce作业流程。

如果您需要执行一些预处理（例如从数据库转储 MapReduce 输入文件）或后处理（例如将 MapReduce 输出文件拆分到 S3 中的其他位置），则必须将这些任务与MapReduce 作业流程。

您可以使用 boto 库来编写这些预处理和后处理脚本。它们可以在 EC2 实例或任何其他有权访问 S3 存储桶的计算机上运行。从 EC2 传输数据可能更便宜、更快，但如果您没有可用的 EC2 实例，您可以在自己的计算机中运行脚本...除非有太多数据需要传输！

您可以通过自动化达到您想要的程度：您甚至可以编排生成输入、启动新的 MapReduce 作业流程、等待作业完成并相应地处理输出的整个过程，以便在适当的配置下，整个过程减少到按一个按钮:)

回复收藏 0 原文

~没有更多了~

关于作者

冰火雁神

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

如何为 AWS MapReduce 准备数据和后续处理数据

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

如何为 AWS MapReduce 准备数据和后续处理数据

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。