测试容错代码

发布于 2024-08-30 18:25:28 字数 543 浏览 14 评论 0原文

我目前正在开发一个服务器应用程序，我们已同意尝试并维持一定水平的服务。我们想要保证的服务级别是：如果服务器接受请求并且服务器向客户端发送确认，我们想要保证请求将会发生，即使服务器崩溃了。由于请求可能会长时间运行并且确认时间需要很短，因此我们通过持久化请求，然后向客户端发送确认，然后执行各种操作来满足请求来实现这一点。当执行操作时，它们也会被持久化，因此服务器知道启动时请求的状态，并且还有与外部系统的各种协调机制来检查日志的准确性。

这一切似乎运行得相当好，但我们很难有任何信念地说出这一点，因为我们发现测试我们的容错代码非常困难。到目前为止，我们已经提出了两种策略，但都不是完全令人满意：

让外部进程监视服务器代码，然后尝试在外部进程认为测试中的适当点处将其终止
。导致它在某些已知的关键点崩溃

我的第一个策略的问题是外部进程无法知道应用程序的确切状态，因此我们无法确定我们是否遇到了代码中最有问题的点。我对第二种策略的问题是，尽管它可以更好地控制错误发生的情况，但我不喜欢在我的应用程序中使用代码注入错误，即使有可选的编译等。我担心它太容易忽略错误注入点并将其滑入生产环境。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

半透明的墙 2024-09-06 18:25:28

我认为有三种方法可以解决这个问题，如果可用的话，我可以建议对这些不同的代码进行一套全面的集成测试，使用依赖项注入或工厂对象在这些集成期间产生损坏的操作。

其次，使用随机kill -9 运行应用程序，并禁用网络接口可能是测试这些事情的好方法。

我还建议测试文件系统故障。如何执行此操作取决于您的操作系统，在 Solaris 或 FreeBSD 上，我将在文件中创建 zfs 文件系统，然后在应用程序运行时 rm 该文件。

如果您使用数据库代码，那么我建议也测试数据库的故障。

依赖注入的另一种替代方案（可能也是我会使用的解决方案）是拦截器，您可以在代码中启用崩溃测试拦截器，这些拦截器将了解应用程序的状态并在正确的时间引入上面列出的故障，或者您可以使用的任何其他故障。可能想要创建。它不需要更改现有代码，只需要一些额外的代码来包装它。

回复收藏 0 原文

憧憬巴黎街头的黎明 2024-09-06 18:25:28

对于第一点的一个可能的答案是在外部过程中进行多次实验，以便增加影响代码有问题部分的可能性。然后，您可以分析核心转储文件以确定代码实际崩溃的位置。

另一种方法是通过存根库或内核调用来提高可观察性和/或可命令性，即无需修改应用程序代码。

您可以在 Wikipedia 的故障注入页面上找到一些资源，位于特别是在软件实现的故障注入部分。

回复收藏 0 原文

爱的十字路口 2024-09-06 18:25:28

您对故障注入的担忧并不是根本问题。您只需要一种万无一失的方法来防止此类代码最终部署。一种方法是将故障注入器设计为调试器。即，错误是由进程外部的进程注入的。这已经提供了一定程度的隔离。此外，大多数操作系统都提供某种访问控制，除非专门启用，否则会阻止调试。在最原始的形式中，它是将其限制为 root，在其他操作系统上它需要特定的“调试权限”。当然，在生产中没有人会这样做，因此您的故障注入器甚至无法在生产中运行。

实际上，故障注入器可以在特定地址（即函数甚至代码行）设置断点。然后您可以对此做出反应，例如，在某个断点被击中三次后终止该过程。

回复收藏 0 原文