P520内存故障的郁闷,有谁知道故障真正的原因???

发布于 2022-09-30 19:06:30 字数 2885 浏览 13 评论 0

两台9111-520,微码版本均是SF235_180,无分区,未连接HMC,有内置raid卡。两台设备先后发生了完全相同的内存报错故障,现象如下:

1、设备最早报错信息:
BFE4C025   1114125610 P H sysplanar0     UNDETERMINED ERROR

SRC:                    B120E500
Description:            Memory subsystem including external cache Predictive
                        Error, general. Refer to the system service
                        documentation for more information.
Additional Words:       2-030000F0 3-523C0110 4-C13920FF 5-40000000
                        6-00811930 7-00000001 8-00A0008E 9-00000000
Possible FRUs:
    Priority: M Maintainence Procedure: FSPSP35
    Location: n/a

2、根据FSPSP35,对设备进行了关机、慢启操作,启动后设备报错如下;
BFE4C025   1204185110 P H sysplanar0     UNDETERMINED ERROR

Diagnostic Analysis
Diagnostic Log sequence number: 811
Resource tested:        sysplanar0
Resource Description:   System Planar
Location:               
SRC:                    B123E500
Description:            Memory subsystem including external cache Predictive
                        Error, general. Refer to the system service
                        documentation for more information.
Additional Words:       2-030000F0 3-523C0110 4-C13920FF 5-410000FF
                        6-00811930 7-00000001 8-00A0008A 9-5100101F
Possible FRUs:
    Priority: M FRU: 00P5767  S/N: YL10G5338191 CCIN: 30D2
    Location: U787A.001.DPM2C3T-P1-C10

查看系统内存容量未降,报错内存状态为available。

3、先后对两台设备进行了微码升级(分别升到了SF240_358和SF240_382),故障未排除,每天仍有如2所示的内存报错;

4、对报错内存进行更换,更换时出现以下现象:
1)shutdown后登陆ASMI,发现报错内存所在组被deconfigured;
2)更换故障内存(只更换报错的那根),对设备进行出厂初始化;
3)系统启动后正常;
4)所更换的内存不再报错,但一段时间后(十几天或一个月)其他槽位内存又报内存错误,每次关机后报错内存均被deconfigured;
5)将更换下的故障内存(四根)插入一台P550上,运行一段时间检测内存正常。

谁遇到过类似的情况或知道故障原因的,请给予帮助,谢谢!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(9

沧笙踏歌 2022-10-07 19:06:30

这不是报的cache错吗
没换cpu板试啊
asmi里难道没cache的错?

知足的幸福 2022-10-07 19:06:30

本帖最后由 roogigyel3 于 2011-03-28 19:10 编辑

这不是报的cache错吗
没换cpu板试啊
asmi里难道没cache的错?
yddll 发表于 2011-03-27 14:59

    asmi内报的和系统内一样,都只有内存的错误。P520的CPU是集成在背板上的(或者是直插在背板上),内存是插在背板上的。

情话已封尘 2022-10-07 19:06:30

P 520 1way 2way 均有货 有需要给偶消息

零度℉ 2022-10-07 19:06:30

同事说换内存要一组一组的更换,不知道有没有关系?我都是只换报错的那根的。

浸婚纱 2022-10-07 19:06:30

更换一组内存是最保险的。关键是不是内存的问题。你可以做一下测试

快乐很简单 2022-10-07 19:06:30

更换一组内存是最保险的。关键是不是内存的问题。你可以做一下测试
aiwsuoai 发表于 2011-03-28 11:14

    根本原因肯定不是内存,但还是和内存有关。通过几次维修得到的结果:
如果系统报出了某根内存故障(B123E500),在关机后这根内存所在的组肯定会被deconfigured。
这种情况下,如不更换内存,直接做出厂初始化,内存恢复,但第二天这根内存会继续报错;
如果更换了内存后做出厂初始化,则问题解决。所更换的内存之后再没有报过错,过段时间其他的内存又会报错。换下的内存装在其他机器上仍能正常使用而不报错。

永言不败 2022-10-07 19:06:30

你可以在内存后做出厂初始化后,直接想报错日志清除,然后观察一段时间。

病女 2022-10-07 19:06:30

你memory deconfigured的时候,有注意Deconfigured Resource吗

摘星┃星的人 2022-10-07 19:06:30

不好意思,我未找到你图中所示内容是在哪里抓取的?我这里有一个ASMI中抓取的图片:

ASMI中内存被deconfigured信息.JPG (176.27 KB, 下载次数: 7)

下载附件

ASMI中内存被deconfigured信息

2011-03-30 10:08 上传

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文