求大神!!使用Cloudera安装Hadoop,数据块自动检测与复制非常慢,平均副本不够3份,怎么破
求技术大神、Hadoop大牛:
使用Cloudera 5.2 安装了 Hadoop 平台,共15个节点,在同个私网,千兆带宽,目前数据量约为80T左右,但最近使用 hdfs fsck / 检测数据块的完整情况时,发现副本的平均数量不够3份,只有2.3而已。每天使用 hdfs fsck / 指令查看,平均的副本数量会略有增加,但进展非常慢,到现在有一个月了,还是停留在2.3的阶段,每天的进展非常慢。但整个集群的检查又是“健康”的,目前主要是副本数不够,不知怎么破,如下图
而调整了CDH的NameNode, Yarn, DataNode的资源配置,增大了内存、带宽等相关的参数,似乎没有起到什么作用。查看了CDH的首页,IO并没有明显地提升,不像是在快速地拷贝复制数据块。如果是数据量大的原因,那 IO 应该很高才是,很疑惑
这个问题困扰了我们很久,一直找不出是什么原因和解决办法,不知各位有没有碰到过类似的情况,特来求救各路大神,还望指点迷津啊
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
为什么不使用光纤交换机,千兆太慢了
觉得你的Cluster hdfs没有什么问题。
应该是某个或者某几个文件的replication 设的小于3。
从fsck的输出看,你over, under, miss replication都是0。并且没有任何corrupt 或者missing。
希望以上猜想对你有帮助。