最近遇到一个64位OS在Opteron DualCore上的问题
原帖由 soway 于 2006-9-14 16:26 发表
OS:redhat AS 3 update 6
CPU:Opteron 270
Memory:2G DDR333 * 8=16G现象:/var/log/message or console
Sep 11 11:25:04 sz8 kernel: CPU 0: Silent Northbridge MCE
Sep 11 11:25:04 sz8 kernel: North ...
几年前遇到过类似的情况,处理结果是用4G内存。。。
BTW:当时用的是redhat8.0,原以为AS3不存在这样的问题了呢。。。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
似乎这个report的error是不会导致死机的。然后,不知道LZ的修改IOMMU是否可以解决问题。
RH的bug里一直声称解决了,但是一直没有解决。
an addon msg here,
all the compute nodes in the cluster( i mentioned in this thread) are 4G memory equipped.
恩。是这样。。。最初用的是微星的主板,出了问题,查到超微和泰安的主板对大内存支持的好。。。就换成了泰安的主板,但实验的结果是一样死机。。。但服务器急着用,就换成4G内存,服务器就稳定下来了。。。所以我们有几十台4G内存的机器。。。
I've solved the similar issue from one customer's HPC cluster 1 years ago. At the beginning, i do think that's the problem of MCE setting as LZ mentioned but finally it is a hardware problem after replacing the system board and entire processors.
You can add more computing load on the processor by some "burning scripts". (this means the issue can be reproduced)
Discuss more detailed with engineer team of the hardware vendor for further investigation.
Good Luck,