当前位置：文江博客话题详情

hadoop amazon-s3 hive amazon-emr

有关 Amazon EMR 上的流式作业流程的问题

发布于 2024-12-10 15:08:38 字数 319 浏览 0 评论 0原文

我必须使用 Amazon EC2 + S3 + RDS + EMR 制作一个相当复杂的数据处理系统，我有一些一般性问题，希望您能帮助我：

我需要使用 R，然后我必须使用 Streaming Job Flow。这是否意味着我失去了 Hive 的功能，并且无法在 EMR 作业之上执行 Hive 查询来处理该数据？
我可以运行多个作业流程并与它们交互吗？
如何使用相关作业？
工作完成后可以重新运行吗？我不想一次计算，我想根据数据进化。
我可以将变量传递给作业吗？
自动化此操作的正确方法是什么？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

浅浅 2024-12-17 15:08:38

我需要使用 R，然后我必须使用 Streaming Job Flow。这是否意味着我失去了 Hive 的功能，并且无法在 EMR 作业之上执行 Hive 查询来处理该数据？

您可以以任何您想要的方式混合工作。例如，一个 R 流作业从 S3 读取数据并将其写入 HDFS，然后是一个 Hive 作业从 HDFS 读取该数据并将其写回 S3。它们都只是 MapReduce 作业。

我可以运行多个作业流程并与它们交互吗？

EMR 中对同时运行的作业流程数量没有限制；唯一强制执行的限制是 EC2 实例的配额。目前尚不支持在两个集群的 HDFS 之间移动数据，但您可以轻松地通过 S3 进行移动。

如何使用相关作业？

取决于你所说的依赖工作？您可以使用步骤机制将作业排队以便在彼此之后运行，因此只要您的工作流程可以通过单个序列来描述就可以了。参见[1]

完成后可以重新运行作业吗？我不想一次计算，我想根据数据进化。

在调试/探索性工作方面，通常最简单的方法是使用 --alive 启动集群，通过 ssh 连接到主节点并直接提交作业。一旦您满意，您就可以使用步骤机制来编排您的工作流程。

我可以将变量传递给作业吗？

是的;您的步骤使您能够完全访问您所提交的作业

自动化此操作的正确方法是什么？

只要您的工作流程是线性的，步骤机制就足够了；启动集群并排队要做的事情，确保最后一步输出到 S3，然后让集群自行终止。

垫

[1] http://docs.amazonwebservices.com/ElasticMapReduce /latest/DeveloperGuide/index.html?ProcessingCycle.html

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文