当前位置：文江博客话题详情

Hadoop从本地机器上传文件到amazon s3

发布于 2024-10-06 11:15:07 字数 224 浏览 5 评论 0原文

我正在开发一个 Java MapReduce 应用程序，该应用程序必须能够为某些图片从用户的本地计算机到 S3 存储桶提供上传服务。

问题是该应用程序必须在 EC2 集群上运行，因此我不确定在复制文件时如何引用本地计算机。 copyFromLocalFile(..) 方法需要本地计算机的路径，该路径将是 EC2 集群...

我不确定我是否正确地陈述了问题，有人能理解我的意思吗？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

蒲公英的约定 2024-10-13 11:15:07

您还可以调查 s3distcp： http://docs.amazonwebservices.com/ElasticMapReduce/latest /DeveloperGuide/UsingEMR_s3distcp.html

Apache DistCp 是一个开源工具，可用于复制大量数据。 DistCp 使用 MapReduce 以分布式方式进行复制 — 在多个服务器之间共享副本、错误处理、恢复和报告任务。 S3DistCp 是 DistCp 的扩展，经过优化可与 Amazon Web Services，特别是 Amazon Simple Storage Service (Amazon S3) 配合使用。使用 S3DistCp，您可以高效地将大量数据从 Amazon S3 复制到 HDFS，并由 Amazon Elastic MapReduce (Amazon EMR) 作业流对其进行处理。您还可以使用 S3DistCp 在 Amazon S3 存储桶之间或从 HDFS 复制数据到 Amazon S3。

回复收藏 0 原文