HDFS复制因子

发布于 2024-12-07 10:50:43 字数 166 浏览 4 评论 0 原文

当我将文件上传到 HDFS 时，如果我将复制因子设置为 1，那么文件分割将驻留在一台机器上，还是分割将分布到网络上的多台机器上？

hadoop fs -D dfs.replication=1 -copyFromLocal file.txt /user/ablimit

原文

When I'm uploading a file to HDFS, if I set the replication factor to 1 then the file splits gonna reside on one single machine or the splits would be distributed to multiple machines across the network ?

hadoop fs -D dfs.replication=1 -copyFromLocal file.txt /user/ablimit

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

若能看破又如何 2024-12-14 10:50:43

根据Hadoop：权威指南

Hadoop的默认策略是将第一个副本放置在与客户端相同的节点上（对于
客户端在集群外运行，节点是随机选择的，尽管系统
尽量不要选择太满或太忙的节点）。第二个副本放置在
与第一个（机架外）不同的机架，随机选择。第三个副本放置在
与第二个机架相同，但位于随机选择的不同节点上。更多复制品
被放置在集群上的随机节点上，尽管系统试图避免放置
同一机架上的副本太多。

这种逻辑是有意义的，因为它减少了不同节点之间的网络通信。但是，这本书是 2009 年出版的，Hadoop 框架发生了很多变化。

我认为这取决于客户端是否与 Hadoop 节点相同。如果客户端是 Hadoop 节点，则所有分片将位于同一节点上。尽管集群中有多个节点，但这并不能提供更好的读/写吞吐量。如果客户端与 Hadoop 节点不同，则为每个 split 随机选择该节点，因此 split 分布在集群中的节点上。现在，这提供了更好的读/写吞吐量。

写入多个节点的优点之一是，即使其中一个节点发生故障，几个分片也可能发生故障，但至少可以从剩余的分片中以某种方式恢复一些数据。