当前位置：文江博客话题详情

如何以编程方式有效地将文件从 HDFS 复制到 S3

发布于 2024-09-18 18:27:30 字数 112 浏览 2 评论 0原文

我的 hadoop 作业在 HDFS 上生成大量文件，我想编写一个单独的线程将这些文件从 HDFS 复制到 S3。

任何人都可以向我指出任何处理它的 java API 吗？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

姐不稀罕 2024-09-25 18:27:30

“Hadoop 0.11.0 中的 ${HADOOP_HOME}/bin/hadoop distcp 工具添加了对 S3 块文件系统的支持（请参阅 HADOOP-862）。distcp 工具设置一个 MapReduce 作业来运行副本。使用 distcp，许多成员的集群可以快速复制大量数据。映射任务的数量是通过计算源中的文件数量来计算的：即每个映射任务负责复制一个文件，源和目标可能引用不同的文件系统类型。例如，源可能指以 S3 作为目标的本地文件系统或 hdfs。“

在此处查看在 S3 中运行批量复制http://wiki.apache.org/hadoop/AmazonS3

回复收藏 0 原文

~没有更多了~