调试难以重现的并发错误的技巧？

发布于 2024-11-04 05:10:55 字数 115 浏览 0 评论 0原文

对于调试难以重现的并发错误（例如，每运行一千次测试才会发生一次）有哪些技巧？我有其中之一，但我不知道如何调试它。我无法在各处放置打印语句或调试器监视来观察内部状态，因为当错误未成功重现时，这会改变计时并产生大量信息。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

萧瑟寒风 2024-11-11 05:10:55

这是我的技术：我通常使用大量的assert()来尽可能频繁地检查数据一致性/有效性。当一个断言失败时，程序崩溃并生成核心文件。然后我使用带有核心文件的调试器来了解哪些线程配置导致了数据损坏。

回复收藏 0 原文

阳光下的泡沫是彩色的 2024-11-11 05:10:55

这可能对您没有帮助，但可能会帮助将来有人看到这个问题。

如果您使用 .Net 语言，则可以使用 CHESS 项目微软研究。它对各种线程交错运行单元测试，并显示哪些线程会导致错误发生。

您所使用的语言可能有类似的工具。

回复收藏 0 原文

我一向站在原地 2024-11-11 05:10:55

这在很大程度上取决于问题的性质。通常有用的是二分法（缩小搜索空间）+代码“检测”，其中包含用于访问线程 ID、锁定/解锁计数、锁定顺序等的断言，希望下次问题重现时应用程序将记录日志详细消息或将核心转储为您提供解决方案。

回复收藏 0 原文

对岸观火 2024-11-11 05:10:55

查找并发错误导致的数据损坏的一种方法是：

为该数据或缓冲区添加原子计数器。
- 保留所有现有的同步代码 - 不要修改它们，假设您要修复现有代码中的错误，而一旦修复错误，新的原子计数器就会被删除。
当开始修改数据时，增加原子计数器。完成后，递减。
一旦发现计数器大于 1，就会立即进行核心转储（使用类似于 InterlockedIncrement 的东西）

回复收藏 0 原文

苍暮颜 2024-11-11 05:10:55

根据我的经验，有针对性的单元测试代码既耗时又有效。

尽可能缩小失败代码的范围。编写特定于明显的罪魁祸首代码的测试代码，并在调试器中运行它，直到重现问题为止。

回复收藏 0 原文

泅人 2024-11-11 05:10:55

我使用的策略之一是通过引入自旋等待来模拟线程的交错。需要注意的是，您不应该在您的平台上使用标准的自旋等待机制，因为它们可能会引入内存障碍。如果您尝试解决的问题是由于缺乏内存屏障引起的（因为在使用无锁策略时很难正确设置屏障），那么标准自旋等待机制只会掩盖问题。相反，在您希望代码暂停片刻的地方放置一个空循环。这可以增加重现并发错误的可能性，但这并不是灵丹妙药。

回复收藏 0 原文