Hadoop namenode：单点故障

发布于 2024-10-08 12:54:38 字数 160 浏览 14 评论 0原文

Hadoop架构中的Namenode是一个单点故障。

拥有大型 Hadoop 集群的人们如何应对这个问题？

是否有一种行业认可的、行之有效的解决方案，其中辅助 Namenode 会在主 Namenode 发生故障时接管？ EM>

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心舞飞扬 2024-10-15 12:54:38

Yahoo 对于不同集群大小的配置设置有某些建议，以考虑 NameNode 故障。例如：

Hadoop 集群中的单点故障是 NameNode。虽然任何其他机器的丢失（间歇性或永久）不会导致数据丢失，但 NameNode 丢失会导致集群不可用。 NameNode 数据永久丢失将导致集群的 HDFS 无法运行。
因此，在此配置中应采取另一个步骤来备份NameNode元数据

Facebook 使用 Hadoop 的调整版本的 NameNode 元数据其数据仓库；它有一些优化，专注于NameNode可靠性。除了 github 上提供的补丁之外，Facebook 似乎还使用 AvatarNode专门用于主备NameNode之间的快速切换。 Dhruba Borthakur 的博客包含其他几个条目，提供了对作为单点故障的 NameNode 的进一步见解。

编辑：有关 Facebook 对 NameNode 的改进的更多信息。

回复收藏 0 原文

故人的歌 2024-10-15 12:54:38

Namenode 的高可用性已随 Hadoop 2.x 版本引入。

它可以通过两种模式来实现 - 使用 NFS 和使用 QJM

但是，Quorum Journal Manager (QJM) 的高可用性是首选。

在典型的 HA 集群中，两台独立的机器被配置为 NameNode。在任何时间点，只有一个NameNode处于Active状态，另一个处于Standby状态。 活动 NameNode 负责集群中的所有客户端操作，而备用 NameNode 只是充当从属节点，维护足够的状态以在必要时提供快速故障转移。

请看下面的 SE 问题，其中解释了完整的故障转移过程。

Hadoop 2.x 中的辅助 NameNode 使用和高可用性

Hadoop Namenode 故障转移过程如何工作？