使用 s3 作为 fs.default.name 还是 HDFS？

发布于 2024-11-14 08:36:33 字数 209 浏览 2 评论 0原文

我正在 EC2 上设置 Hadoop 集群，我想知道如何进行 DFS。我的所有数据当前都位于 s3 中，并且所有 Map/Reduce 应用程序都使用 s3 文件路径来访问数据。现在我一直在研究亚马逊 EMR 的设置方式，似乎对于每个作业流，都设置了名称节点和数据节点。现在我想知道我是否真的需要这样做，或者我是否可以使用 s3(n) 作为 DFS？如果这样做的话，有什么缺点吗？

谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

别念他 2024-11-21 08:36:33

为了在 core-site.xml 中使用 S3 而不是 HDFS fs.name.default 需要指向您的存储桶：

<property>
        <name>fs.default.name</name>
        <value>s3n://your-bucket-name</value>
</property>

建议您使用 S3N 而不是简单的 S3 实现，因为 S3N 可由任何其他应用程序和您自己读取：）

此外，在同一个 core-site.xml 文件中，您需要指定以下属性：

fs.s3n.awsAccessKeyId
fs.s3n.awsSecretAccessKey

fs.s3n.awsSecretAccessKey

in order to use S3 instead of HDFS fs.name.default in core-site.xml needs to point to your bucket:

<property>
        <name>fs.default.name</name>
        <value>s3n://your-bucket-name</value>
</property>

It's recommended that you use S3N and NOT simple S3 implementation, because S3N is readble by any other application and by yourself :)

Also, in the same core-site.xml file you need to specify the following properties:

fs.s3n.awsAccessKeyId
fs.s3n.awsSecretAccessKey

fs.s3n.awsSecretAccessKey

回复收藏 0 原文

感性不性感 2024-11-21 08:36:33

您作业的任何中间数据都会发送到 HDFS，所以是的，您仍然需要名称节点和数据节点

回复收藏 0 原文

空城缀染半城烟沙 2024-11-21 08:36:33

https://hadoop。 apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/core-default.xml

fs.default.name 已弃用，也许 fs.defaultFS 更好。

回复收藏 0 原文

年华零落成诗 2024-11-21 08:36:33

我能够

<property>
        <name>fs.default.name</name>
        <value>s3n://your-bucket-name</value>
</property>

在 core-site.xml 中使用 s3 集成，并使用 hdfs ls 命令获取文件列表。但还应该有 namenode 和单独的 datanode 配置，因为仍然不确定数据如何获取在数据节点中进行分区。

我们应该为 namenode 和 datanode 提供本地存储吗？

I was able to get the s3 integration working using

<property>
        <name>fs.default.name</name>
        <value>s3n://your-bucket-name</value>
</property>

in the core-site.xml and get the list of the files get using hdfs ls command.but should also should have namenode and separate datanode configurations, coz still was not sure how the data gets partitioned in the data nodes.

should we have local storage for namenode and datanode?

回复收藏 0 原文

~没有更多了~