当前位置：文江博客话题详情

快速重启技术而不是保持良好状态（可用性和一致性）

发布于 2024-08-04 12:13:28 字数 470 浏览 3 评论 0原文

您多久通过重新启动计算机、路由器、程序、浏览器来解决问题？或者甚至通过重新安装操作系统或软件组件？

当怀疑软件组件没有以正确的方式保持其状态时，这似乎是一种常见模式，然后您只需通过重新启动组件即可获取初始状态。

我听说亚马逊/谷歌有一个由很多节点组成的集群。每个节点的一个重要属性是它可以在几秒钟内重新启动。因此，如果其中一个失败，那么只需重新启动它即可将其恢复到初始状态。

是否有任何语言/框架/设计模式可以利用这种技术作为一等公民？

编辑该链接描述了亚马逊背后的一些原则以及可用性和一致性的总体原则： http://www.infoq.com/presentations/availability-consistency

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

二智少女猫性小仙女 2024-08-11 12:13:28

这在unix/linux世界里其实是非常罕见的。这些操作系统（Windows 也是如此）旨在保护自身免受不良进程的影响。我确信谷歌不会依靠硬重启来纠正行为不当的软件。我想说的是，不应采用这种技术，如果有人说这是恢复其软件的最快途径，您应该寻找其他方法！

回复收藏 0 原文

李不 2024-08-11 12:13:28

这在嵌入式系统领域和电信领域很常见。这在基于服务器的世界中不太常见。

您可能会对一个研究小组感兴趣。他们一直致力于面向恢复的计算或“鹏”。 ROC 的关键原则是任何程序在启动后都可以处于最干净、最好、最可靠的状态。因此，在检测到故障时，他们更愿意重新启动软件，而不是尝试从故障中恢复。

听起来很简单，对吧？嗯，大部分研究都是为了实现这个想法。原因正是您和其他评论者所指出的：操作系统重新启动太慢，无法成为可行的恢复方法。

ROC 依赖于三个主要部分：

尽早检测故障的方法。
一种隔离故障组件同时保留系统其余部分的方法。
组件级重新启动。

ROC 与典型的“每晚重新启动”方法之间的真正关键区别在于，ROC 是一种策略，其中重新启动是一种反应。我的意思是，大多数软件都是通过某种程度的错误处理和恢复（抛出和捕获、日志记录、重试循环等）编写的。ROC 程序会检测到故障（异常）并立即退出。混合这两种范式只会让你面临两全其美的情况——低可靠性和错误。

回复收藏 0 原文

挽心 2024-08-11 12:13:28

微控制器通常有一个看门狗定时器，必须经常重置（通过一行代码），否则微控制器将重置。这可以防止固件陷入无限循环、等待输入等。

未使用的内存有时会被设置为导致重置的指令，或者跳转到微控制器重置时启动的同一位置。如果微控制器以某种方式跳转到程序存储器之外的位置，这将重置微控制器。

回复收藏 0 原文

混浊又暗下来 2024-08-11 12:13:28

嵌入式系统可能具有检查点功能，每 n ms 保存当前堆栈。
存储器在电源重启时是非易失性的（即电池供电），因此在电源启动时，会进行测试以查看代码是否需要跳转到旧的检查点，或者是否是新系统。

我猜测亚马逊/谷歌也使用了类似的技术（但更复杂）。

回复收藏 0 原文

熟人话多 2024-08-11 12:13:28

虽然我本身无法想到设计模式，但根据我的经验，这是开发人员“选择被破坏”的结果。

我曾见过一个 50 个用户的站点由于连接管理不善、调用过多且没有缓存而导致 SQL Server Enterprise Edition（具有 750 MB 数据库）和 Novell 服务器瘫痪。根据开发人员的说法，Novell 始终是罪魁祸首，直到我们在核心库中发现缺少“CloseConnection”调用。到那时，已经花费了数千美元进行升级以解决缺失的一行代码，但没有成功。

（我无法理解为什么他们有企业版，所以不要问！！）

回复收藏 0 原文