当前位置：文江博客话题详情

如何确保数据均匀分布在 hadoop 节点上？

发布于 2024-10-18 09:20:27 字数 128 浏览 4 评论 0原文

如果我将数据从本地系统复制到 HDFS，我能否确保数据均匀分布在节点上？

PS HDFS保证每个块将存储在3个不同的节点上。但这是否意味着我的文件的所有块都将在相同的 3 个节点上排序？或者HDFS会为每个新块随机选择它们？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我要还你自由 2024-10-25 09:20:27

如果您的复制设置为 3，它将被放置在 3 个独立的节点上。它所放置的节点数量由您的复制因子控制。如果您想要更大的分布，则可以通过编辑 $HADOOP_HOME/conf/hadoop-site.xml 并更改 dfs.replication 值来增加复制数量。

我相信新的方块几乎是随机放置的。需要考虑跨不同机架的分布（当 hadoop 意识到机架时）。有一个示例（找不到链接），如果您在 3 个和 2 个机架上进行复制，则 2 个块将位于一个机架中，第三个块将放置在另一个机架中。我猜想对于哪个节点获取机架中的块没有显示任何偏好。

我还没有看到任何指示或说明在相同节点上存储相同文件块的偏好。

如果您正在寻找强制跨节点平衡数据的方法（以任何值进行复制），一个简单的选择是 $HADOOP_HOME/bin/start-balancer.sh ，它将运行一个平衡过程来移动块自动集群。
这个和其他一些平衡选项可以在 Hadoop 常见问题解答中找到，

希望有所帮助。

回复收藏 0 原文

↘人皮目录ツ 2024-10-25 09:20:27

您可以在名称节点的端口 50070 上打开 HDFS Web UI。它将显示有关数据节点的信息。您将在那里看到一件事 - 每个节点已使用的空间。
如果您没有 UI - 您可以查看数据节点的 HDFS 目录中使用的空间。
如果您有数据倾斜，您可以运行重新平衡器，这将逐渐解决它。

回复收藏 0 原文

挖个坑埋了你 2024-10-25 09:20:27

现在有了 Hadoop-385 补丁，我们可以选择块放置策略，这样将文件的所有块放置在同一节点中（对于复制节点也类似）。阅读有关此主题的博客 -看评论部分。

回复收藏 0 原文

内心激荡 2024-10-25 09:20:27

是的，Hadoop 按块分发数据，因此每个块将单独分发。

回复收藏 0 原文

~没有更多了~

关于作者

下雨或天晴

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

如何确保数据均匀分布在 hadoop 节点上？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如何确保数据均匀分布在 hadoop 节点上？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。