当前位置：文江博客话题详情

statistics probability physics error-detection risk-analysis

宇宙射线：它们影响程序的概率是多少？

发布于 2024-08-27 18:08:49 字数 273 浏览 17 评论 0原文

我再次进行设计审查，并遇到了这样的说法：特定场景的概率“小于宇宙射线影响程序的风险”，我突然意识到我根本不知道那是什么概率是。

“由于 2^-128 是 340282366920938463463374607431768211456 中的 1，所以我认为我们有理由在这里冒险，即使这些计算偏差了数十亿倍......我们我相信，我们更容易被宇宙射线搞砸。”

这个程序员正确吗？宇宙射线击中计算机并影响程序执行的概率是多少？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（15）

揽月 2024-09-03 18:08:50

维基百科引用了IBM 在 90 年代进行的研究表明“计算机通常每月每 256 MB RAM 会遇到一次宇宙射线引发的错误”。不幸的是，引用的是《科学美国人》上的一篇文章，该文章没有提供任何进一步的参考资料。就我个人而言，我发现这个数字非常高，但也许大多数由宇宙射线引起的内存错误不会导致任何实际或明显的问题。

另一方面，当谈到软件场景时，人们谈论概率通常不知道他们在谈论什么。

回复收藏 0 原文

仙气飘飘 2024-09-03 18:08:50

好吧，宇宙射线显然导致了丰田汽车中的电子设备发生故障，所以我想说可能性非常高:)

宇宙射线真的造成了丰田的困境吗？

回复收藏 0 原文

怪我闹别瞎闹 2024-09-03 18:08:50

使用 ECC，您可以纠正宇宙射线的 1 位错误。为了避免 10% 的宇宙射线导致 2 位错误的情况，ECC 单元通常在芯片上交错，因此没有两个单元彼此相邻。因此，影响两个单元的宇宙射线事件将导致两个可纠正的 1 位错误。

Sun 指出：（部件号 816-5053-2002 年 4 月 10 日）

一般来说，宇宙射线软错误发生在 DRAM 内存中的时间为
速率约为 10 至 100 FIT/MB（1 FIT = 1 台设备在 10 亿小时内出现故障）。
因此，具有 10 GB 内存的系统应该每 1,000 显示一次 ECC 事件
到 10,000 小时，100 GB 的系统将每隔
100 到 1,000 小时。然而，这是一个粗略的估计，
变化作为上述效果的函数。

回复收藏 0 原文

合约呢 2024-09-03 18:08:50

内存错误是真实存在的，ECC 内存确实有帮助。正确实现的 ECC 内存将纠正单位错误并检测双位错误（如果检测到此类错误，则停止系统。）您可以从人们经常抱怨似乎是通过运行 Memtest86 并发现坏内存。当然，由宇宙射线引起的短暂故障与持续故障的内存不同，但它与更广泛的问题相关，即您应该在多大程度上相信您的内存能够正确运行。

基于 20 MB 驻留大小的分析可能适合普通应用程序，但大型系统通常具有多个具有大主内存的服务器。

有趣的链接：http://cr.yp.to/hardware/ecc.html

不幸的是，页面中的 Corsair 链接似乎已失效，因此请在此处查看 Corsair 链接。

回复收藏 0 原文

浊酒尽余欢 2024-09-03 18:08:50

这是一个现实问题，也是服务器和嵌入式系统中使用 ECC 内存的原因。以及为什么飞行系统与地面系统不同。

例如，请注意，用于“嵌入式”应用程序的英特尔部件往往会在规格表中添加 ECC。平板电脑的 Bay Trail 缺少它，因为它会使内存更贵并且可能更慢。如果平板电脑每隔一段时间就会崩溃一次，用户也不会太在意。无论如何，软件本身远不如硬件可靠。但对于用于工业机械和汽车的 SKU，ECC 是强制性的。从这里开始，我们期望软件更加可靠，并且随机干扰造成的错误将是一个真正的问题。

通过 IEC 61508 和类似标准认证的系统通常具有启动测试，检查所有 RAM 是否正常工作（没有位停留在 0 或 1），以及运行时的错误处理，尝试从 ECC 检测到的错误中恢复，以及通常，内存清理器任务也会连续遍历内存并读写内存，以确保注意到发生的任何错误。

但对于主流PC软件呢？没什么大不了的。对于长期存在的服务器？使用 ECC 和故障处理程序。如果一个不可纠正的错误杀死了内核，那就这样吧。或者您偏执地使用具有锁步执行的冗余系统，这样如果一个核心损坏，另一个核心可以在第一个核心重新启动时接管。

回复收藏 0 原文

苍风燃霜 2024-09-03 18:08:50

如果一个程序是生命攸关的（如果失败就会杀死某人），那么它需要以这样的方式编写：要么自动防故障，要么从此类故障中自动恢复。所有其他节目，YMMV。

丰田汽车就是一个很好的例子。说说你对油门拉线的看法，但它不是软件。

另请参阅http://en.wikipedia.org/wiki/Therac-25

回复收藏 0 原文

早乙女 2024-09-03 18:08:50

“宇宙射线事件”在这里的许多答案中被认为具有均匀分布，但这可能并不总是正确的（即超新星）。虽然“宇宙射线”的定义（至少根据维基百科）来自外太空，但我认为也包括本地太阳风暴（又名日冕物质抛射）在同一保护伞下。我相信它可能会导致几个位在短时间内翻转，甚至可能足以损坏启用 ECC 的内存。

众所周知，太阳风暴会对电力系统造成相当大的破坏（例如 1989 年 3 月的魁北克停电事件））。计算机系统很可能也会受到影响。

大约 10 年前，我坐在另一个人旁边，我们各自拿着笔记本电脑坐在一起，当时正值太阳天气相当“暴风雨”的时期（坐在北极，我们可以间接观察到这一点 - 大量的北极光被看见）。突然，就在同一时刻，我们的两台笔记本电脑都崩溃了。他运行的是 OS X，而我运行的是 Linux。我们都不习惯笔记本电脑崩溃——这在 Linux 和 OS X 上是非常罕见的事情。由于我们在不同的操作系统上运行（并且它不会在闰秒期间发生），因此可以或多或少地排除常见的软件错误。我将此事件归因于“宇宙辐射”。

后来“宇宙辐射”就成了我单位内部的一个笑话。每当我们的服务器发生问题而我们找不到任何解释时，我们就会开玩笑地将故障归因于“宇宙辐射”。 :-)

回复收藏 0 原文

Spring初心 2024-09-03 18:08:50

我曾经对在太空中飞行的设备进行了编程，然后你（据说，没有人给我看过任何关于它的论文，但据说这是业内的常识）可以预料到宇宙射线总是会引发错误。

回复收藏 0 原文

身边 2024-09-03 18:08:50

更常见的是，噪声会损坏数据。校验和用于在多个层面上解决这个问题；在数据电缆中，通常有一个与数据一起传输的奇偶校验位。这大大降低了腐败的可能性。然后在解析级别上，无意义数据通常会被忽略，因此即使某些损坏确实通过了奇偶校验位或其他校验和，在大多数情况下也会被忽略。

此外，一些组件是电屏蔽以阻挡噪音（我猜可能不是宇宙射线）。

但最后，正如其他回答者所说，偶尔会有一些位或字节被扰乱，并且这是否是一个有效字节取决于机会。最好的情况是，宇宙射线扰乱了其中一个空位，并且完全没有任何影响，或者使计算机崩溃（这是一件好事，因为计算机不会造成伤害）；但最坏的情况，嗯，我相信你可以想象。

回复收藏 0 原文

舟遥客 2024-09-03 18:08:50

我经历过这一点——宇宙射线翻转一点点并不罕见，但人们观察到这一点的可能性很小。

2004年，我正在为安装程序开发一个压缩工具。我的测试数据是一些解压后大约500 MB或更多的Adobe安装文件。

经过繁琐的压缩运行和解压运行以测试完整性后，FC /B 显示一个字节不同。

在那一个字节内，MSB 发生了翻转。
我也翻转了，担心我有一个疯狂的错误，只会在非常特定的条件下出现 - 我什至不知道从哪里开始寻找。

但有件事告诉我要再次运行测试。我跑了一下，结果就通过了。我设置了一个脚本在一夜之间运行测试 5 次。早上5点都过去了。

所以这绝对是宇宙射线位翻转。

回复收藏 0 原文

少女的英雄梦 2024-09-03 18:08:50

作为一个数据点，这恰好发生在我们的构建中：

02:13:00,465 WARN  - In file included from /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/ostream:133:
02:13:00,465 WARN  - /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/locale:3180:65: error: use of undeclared identifier '_'
02:13:00,465 WARN  - for (unsigned __i = 1; __i < __trailing_sign->size(); ++_^i, ++__b)
02:13:00,465 WARN  - ^
02:13:00,465 WARN  - /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/locale:3180:67: error: use of undeclared identifier 'i'
02:13:00,465 WARN  - for (unsigned __i = 1; __i < __trailing_sign->size(); ++_^i, ++__b)
02:13:00,465 WARN  - ^

这看起来非常像编译期间发生的位翻转，偶然发生在源文件中非常重要的位置。

我不一定说这是“宇宙射线”，但症状相符。

As a data point, this just happened on our build:

02:13:00,465 WARN  - In file included from /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/ostream:133:
02:13:00,465 WARN  - /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/locale:3180:65: error: use of undeclared identifier '_'
02:13:00,465 WARN  - for (unsigned __i = 1; __i < __trailing_sign->size(); ++_^i, ++__b)
02:13:00,465 WARN  - ^
02:13:00,465 WARN  - /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/locale:3180:67: error: use of undeclared identifier 'i'
02:13:00,465 WARN  - for (unsigned __i = 1; __i < __trailing_sign->size(); ++_^i, ++__b)
02:13:00,465 WARN  - ^

That looks very strongly like a bit flip happening during a compile, in a very significant place in a source file by chance.

I'm not necessarily saying this was a "cosmic ray", but the symptom matches.

回复收藏 0 原文

枯寂 2024-09-03 18:08:50

您可能还想看看容错硬件。

例如，Stratus Technology 构建了名为 ftServer 的 Wintel 服务器，该服务器有 2 或 3 个“主板”，以锁步方式比较计算结果。（有时这也在太空飞行器中完成）。

Stratus 服务器从定制芯片组发展到背板上的同步。

一个非常相似的（但是软件的）系统是基于 Hypervisor 的 VMWare 容错锁步。

回复收藏 0 原文

木格 2024-09-03 18:08:49

来自维基百科：

IBM 在 20 世纪 90 年代的研究表明，计算机通常每月每 256 MB RAM 会遇到一次宇宙射线引起的错误。^[15]

这意味着每月每字节的概率为 3.7 × 10^-9，即 1.4 × 10^-15 每字节每秒。如果你的程序运行了1分钟，占用了20MB的RAM，那么失败的概率就是

                 60 × 20 × 1024²
1 - (1 - 1.4e-15)                = 1.8e-6 a.k.a. "5 nines"

错误检查可以帮助减少失败的后果。另外，正如 Joe 所言，由于芯片尺寸更加紧凑，故障率可能与 20 年前有所不同。

From Wikipedia:

Studies by IBM in the 1990s suggest that computers typically experience about one cosmic-ray-induced error per 256 megabytes of RAM per month.^[15]

This means a probability of 3.7 × 10^-9 per byte per month, or 1.4 × 10^-15 per byte per second. If your program runs for 1 minute and occupies 20 MB of RAM, then the failure probability would be

                 60 × 20 × 1024²
1 - (1 - 1.4e-15)                = 1.8e-6 a.k.a. "5 nines"

Error checking can help to reduce the aftermath of failure. Also, because of more compact size of chips as commented by Joe, the failure rate could be different from what it was 20 years ago.

回复收藏 0 原文

a√萤火虫的光℡ 2024-09-03 18:08:49

显然，并非微不足道。来自这篇新科学家文章，引用英特尔专利申请：

“宇宙射线引起的计算机崩溃已经发生，并且随着设备（例如晶体管）芯片尺寸的减小，预计这种情况会随着频率的增加而增加。预计这个问题将成为未来十年计算机可靠性的主要限制因素。”

您可以阅读此处为完整专利。

回复收藏 0 原文

你的心境我的脸 2024-09-03 18:08:49

注意：此答案与物理无关，而是与非 ECC 内存模块的静默内存错误有关。有些错误可能来自外太空，有些错误可能来自桌面的内部空间。

有一些关于大型服务器场（如 CERN 集群和 Google 数据中心）上的 ECC 内存故障的研究。具有 ECC 功能的服务器级硬件可以检测并纠正所有单位错误，并检测许多多位错误。

我们可以假设有很多非 ECC 台式机（以及非 ECC 移动智能手机）。如果我们检查 ECC 可纠正错误率（单位翻转）的论文，我们可以了解非 ECC 内存上的静默内存损坏率。

大规模 CERN 2007 年研究“数据完整性” ：供应商宣称“其内存模块的位错误率为 10^-12”，“观察到的错误率比预期低 4 个数量级 >”。对于数据密集型任务（8 GB/s 内存读取），这意味着每分钟可能发生一位翻转（10^-12 供应商 BER）或每两天发生一次（10^-16BER）。
2009 年 Google 论文“野外 DRAM 错误：大规模现场研究” 表示每 Mbit 最多可以有 25000-75000 个一位 FIT（每十亿小时的故障时间），这相当于在我的 8GB RAM 后每小时 1 - 5 个位错误计算。论文也这么说：“每年每 GB 的平均可纠正错误率为 2000-6000 个”。
2012 年桑迪亚报告“大规模高性能计算静默数据损坏的检测和纠正”：“双位翻转被认为是不可能的”，但在 ORNL 的密集 Cray XT5 中，即使使用 ECC，它们也“以每天一次的速度运行 75,000 多个 DIMM”。而且单位错误应该更高。

因此，如果程序具有较大的数据集（几个 GB），或者具有较高的内存读取或写入速率（GB/s 或更高），并且运行了几个小时，那么我们可以预期桌面硬件上会出现多次静默位翻转。这个速率是memtest检测不到的，DRAM模块是好的。

长集群运行在数千台非 ECC PC 上，就像 BOINC 互联网范围内的网格计算总是会出现来自内存位翻转以及磁盘和网络静默错误的错误。

对于更大的机器（10,000 台服务器），即使有 ECC 保护以防止单位错误，正如我们在桑迪亚 2012 年报告中看到的那样，每天也可能会发生双位翻转，因此您将没有机会运行全尺寸并行程序持续几天（没有定期检查点，并在出现双重错误时从最后一个良好的检查点重新启动）。大型机器的高速缓存和 CPU 寄存器也会发生位翻转（架构和内部芯片的触发器，例如 ALU 数据路径中的触发器），因为并非所有机器都受到 ECC 保护。

PS：如果DRAM模块坏了，情况会更糟。例如，我在笔记本电脑中安装了新的 DRAM，几周后笔记本电脑就坏了。它开始出现很多内存错误。我得到的结果是：笔记本电脑挂起，Linux 重新启动，运行 fsck，在根文件系统上发现错误，并表示要在更正错误后重新启动。但每次重新启动时（我做了大约 5-6 次），根文件系统上仍然会发现错误。

Note: this answer is not about physics, but about silent memory errors with non-ECC memory modules. Some of errors may come from outer space, and some - from inner space of desktop.

There are several studies of ECC memory failures on large server farms like CERN clusters and Google datacenters. Server-class hardware with ECC can detect and correct all single bit errors, and detect many multi-bit errors.

We can assume that there is lot of non-ECC desktops (and non-ECC mobile smartphones). If we check the papers for ECC-correctable error rates (single bitflips), we can know silent memory corruptions rate on non-ECC memory.

Large scale CERN 2007 study "Data integrity": vendors declares "Bit Error Rate of 10^-12 for their memory modules", "a observed error rate is 4 orders of magnitude lower than expected". For data-intensive tasks (8 GB/s of memory reading) this means that single bit flip may occur every minute (10^-12 vendors BER) or once in two days (10^-16 BER).
2009 Google's paper "DRAM Errors in the Wild: A Large-Scale Field Study" says that there can be up to 25000-75000 one-bit FIT per Mbit (failures in time per billion hours), which is equal to 1 - 5 bit errors per hour for 8GB of RAM after my calculations. Paper says the same: "mean correctable error rates of 2000–6000 per GB per year".
2012 Sandia report "Detection and Correction of Silent Data Corruptionfor Large-Scale High-Performance Computing": "double bit flips were deemed unlikely" but at ORNL's dense Cray XT5 they are "at a rate of one per day for 75,000+ DIMMs" even with ECC. And single-bit errors should be higher.

So, if the program has large dataset (several GB), or has high memory reading or writing rate (GB/s or more), and it runs for several hours, then we can expect up to several silent bit flips on desktop hardware. This rate is not detectable by memtest, and DRAM modules are good.

Long cluster runs on thousands of non-ECC PCs, like BOINC internet-wide grid computing will always have errors from memory bit-flips and also from disk and network silent errors.

And for bigger machines (10 thousands of servers) even with ECC protection from single-bit errors, as we see in Sandia's 2012 report, there can be double-bit flips every day, so you will have no chance to run full-size parallel program for several days (without regular checkpointing and restarting from last good checkpoint in case of double error). The huge machines will also get bit-flips in their caches and cpu registers (both architectural and internal chip's triggers e.g. in ALU datapath), because not all of them are protected by ECC.

PS: Things will be much worse if the DRAM module is bad. For example, I installed new DRAM into laptop, which died several weeks later. It started to give lot of memory errors. What I get: laptop hangs, linux reboots, runs fsck, finds errors on root filesystem and says that it want to do reboot after correcting errors. But at every next reboot (I did around 5-6 of them) there are still errors found on the root filesystem.

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

26 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

知足的幸福

文章 0 评论 0

我一向站在原地

文章 0 评论 0

慕烟庭风

文章 0 评论 0

秉忠贞之诚守退让之实

文章 0 评论 0

小兔几

文章 0 评论 0

mb_3y7WUgWY

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文