直接从 EMR Map/Reduce 任务访问 S3

发布于 2025-01-05 01:52:49 字数 98 浏览 1 评论 0原文

我试图弄清楚如何直接从 EMR 映射任务写入 s3 存储桶。我想运行一个 python 流作业,它会从互联网获取一些数据并将其保存到 s3 - 而不将其返回以减少作业。有人能帮我吗?

I am trying to figure out how to write directly from a EMR map task to the s3 bucket. I would like to run a python streaming job which would get some data from the internet and save it to s3 - without returning it back to reduce job. Can anyone help me with that?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

誰ツ都不明白 2025-01-12 01:52:49

为什么不将 MR 作业的输出设置为 s3 目录并告诉它没有减速器:

./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE

这应该可以完成您想要的操作。

然后你的脚本可以做这样的事情(对不起,ruby):

STDIN.each do |url|
  puts extract_data(url)
end

Why don't you just set the output of your MR job to be a s3 directory and tell it that there is no reducer:

./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE

That should do what you want it to.

Then your script can do something like this (sorry, ruby):

STDIN.each do |url|
  puts extract_data(url)
end
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文