当前位置：文江博客话题详情

debugging replicate

如何修复无法复制的错误？

发布于 2024-07-30 19:26:15 字数 277 浏览 9 评论 0原文

这个问题说明了一切。如果你有一个被多个用户报告的Bug，但是日志中没有该Bug发生的记录，也无法重复该Bug，那么无论你如何努力，你该如何修复呢？或者甚至可以吗？

我相信你们很多人都经历过这种情况。在这种情况下你做了什么，最后的结果是什么？

编辑：我更感兴趣的是如何处理无法找到的错误，而不是无法解决的错误。无法解决的错误是指您至少知道存在问题，并且在大多数情况下有一个搜索问题的起点。万一找不到了，怎么办？你还能做点什么吗？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（15）

仅冇旳回忆 2024-08-06 19:26:16

修改您认为发生问题的代码，以便在某处记录额外的调试信息。当下次发生这种情况时，您将拥有解决问题所需的一切。

回复收藏 0 原文

长不大的小祸害 2024-08-06 19:26:16

如果它是 GUI 应用程序，那么观察客户生成错误（或尝试生成错误）非常有价值。毫无疑问，他们会做一些你从未猜到他们在做的事情（没有错误，只是不同）。

否则，请将伐木集中在该区域。记录大部分内容（您可以稍后将其取出）并让您的应用程序也转储其环境。例如，机器类型、VM 类型、使用的编码。

您的应用程序是否报告版本号、内部版本号等？您需要它来准确确定您正在调试（或不调试！）的版本。

如果您可以检测您的应用程序（例如，如果您在 Java 世界中，则可以使用 JMX），然后检测有问题的区域。存储统计信息，例如请求+参数、完成的时间等。利用缓冲区来存储最后的“n”个请求/响应/对象版本/其他内容，并在用户报告问题时将其转储出来。

回复收藏 0 原文

掩饰不了的爱 2024-08-06 19:26:16

如果你无法复制它，你可以修复它，但无法知道你已经修复了它。

我已经对错误是如何触发的做出了最好的解释（即使我不知道这种情况是如何发生的），修复了这个问题，并确保如果错误再次出现，我们的通知机制会让未来的开发人员知道我希望知道的事情。实际上，这意味着当可能触发错误的路径交叉时添加日志事件，并记录相关资源的指标。当然，还要确保测试总体上能够很好地执行代码。

决定添加哪些通知是一个可行性和分类问题。首先决定开发人员在错误上花费多少时间也是如此。如果不知道这个 bug 有多重要，就无法回答这个问题。

我得到了好的结果（没有再次出现，并且代码更好），也得到了坏的结果（花了太多时间没有解决问题，无论错误最终是否得到修复）。这就是估计和问题优先级的用途。

回复收藏 0 原文

他是夢罘是命 2024-08-06 19:26:16

有时我只需要坐下来研究代码，直到找到错误。尝试证明这个错误是不可能的，在这个过程中你可能会发现你可能错在哪里。如果你真的成功地说服自己这是不可能的，那就假设你在某个地方搞砸了。

添加一堆错误检查和断言可能有助于确认或否认您的信念/假设。有些事情可能会发生你从未预料到的失败。

回复收藏 0 原文

你げ笑在眉眼 2024-08-06 19:26:16

这可能很困难，有时几乎是不可能的。但我的经验是，如果你花足够的时间在上面，你迟早能够重现并修复错误（如果花的时间值得，那就是另一回事了）。

在这种情况下可能有帮助的一般建议。

如果可能的话，添加更多日志记录，以便下次出现错误时获得更多数据。
询问用户是否可以复制该错误。如果是，您可以让他们在监视的同时复制它，并希望找出触发该错误的原因。

回复收藏 0 原文

暮凉 2024-08-06 19:26:16

假设您已经添加了您认为有帮助的所有日志记录，但它没有帮助...您会想到两件事：

从报告的症状开始倒推。想一想..“如果我想产生所报告的症状，我需要执行哪些代码，我将如何实现它，以及我将如何实现它？” D 导致 C 导致 B 导致 A。接受这样的事实：如果错误不可重现，那么普通方法将无济于事。我不得不盯着代码好几个小时，不断地思考才能发现一些错误。通常情况下，事实证明这是一件非常愚蠢的事情。
记住鲍勃的调试第一定律：如果你找不到某些东西，那是因为你找错了地方:-)

回复收藏 0 原文

素年丶 2024-08-06 19:26:16

讨论问题、阅读代码，通常是相当多的事情。我们通常成对进行，因为通常可以很快地通过分析消除可能性。

回复收藏 0 原文

相守太难 2024-08-06 19:26:16

思考。难的。把自己锁起来，不许任何打扰。

我曾经遇到过一个错误，其证据是损坏数据库的十六进制转储。指针链被系统地搞乱了。所有用户的程序以及我们的数据库软件在测试中都运行良好。我盯着它看了一周（这是一个重要的客户），在排除了数十种可能的想法后，我意识到数据分布在两个物理文件中，并且损坏发生在链跨越文件边界的地方。我意识到，如果备份/恢复操作在关键点失败，两个文件最终可能会“不同步”，恢复到不同的时间点。如果您随后在已经损坏的数据上运行客户的程序之一，它将准确地生成我所看到的打结的指针链。然后，我演示了一系列事件，准确地再现了损坏情况。

回复收藏 0 原文

单挑你×的.吻 2024-08-06 19:26:16

进行随机更改，直到有效果:-)

回复收藏 0 原文

謌踐踏愛綪 2024-08-06 19:26:16

首先查看您可以使用哪些工具。例如，Windows 平台上的崩溃将转至 WinQual，因此，如果您遇到这种情况，您现在可以获得故障转储信息。您可以使用静态分析工具来发现潜在的错误、运行时分析工具、分析工具吗？

然后看输入和输出。当用户报告错误时，输入有什么类似的情况，或者输出中有什么不合适的地方吗？编制报告列表并寻找模式。

最后，正如 David 所说，请关注代码。

回复收藏 0 原文

故乡的云 2024-08-06 19:26:16

有两种类型的错误是您无法复制的。你发现的那种，别人发现的那种。

如果您发现了该错误，您应该能够复制它。如果您无法复制它，那么您根本就没有考虑导致该错误的所有影响因素。这就是为什么每当出现错误时，都应该记录它。保存日志、获取屏幕截图等。如果不这样做，那么如何证明该错误确实存在？或许这只是一段错误的记忆？

如果其他人发现了错误，而您无法复制它，那么显然请他们复制它。如果他们无法复制它，那么你就尝试复制它。如果你不能快速复制它，请忽略它。

我知道这听起来很糟糕，但我认为这是合理的。复制别人发现的错误所需的时间非常长。如果错误是真实的，那么它自然会再次发生。有人，也许甚至是你，会再次偶然发现它。如果很难复制，那么它也很少见，多发生几次可能不会造成太大的损害。

如果您花时间实际工作，修复其他错误并编写新代码，那么您的工作效率会比尝试复制甚至无法保证实际存在的神秘错误高得多。只要等待它自然地再次出现，那么你就可以花所有的时间来修复它，而不是浪费时间试图揭示它。

回复收藏 0 原文

十雾 2024-08-06 19:26:16

有一些工具，例如 gotomeeting.com，您可以使用它们与用户共享屏幕并观察行为。可能存在许多潜在的问题，例如计算机上安装的软件数量、某些工具实用程序与您的程序冲突。我相信 gomeeting 不是唯一的解决方案，但可能存在超时问题、网速缓慢问题。

大多数时候，我会说软件不会向您报告正确的错误消息，例如，在 java 和 c# 跟踪每个异常的情况下......不要捕获所有异常，而是保留一个可以捕获和记录的点。 UI Bug 很难解决，除非使用远程桌面工具。大多数时候，甚至第三方软件也可能存在错误。

回复收藏 0 原文

愚人国度 2024-08-06 19:26:16

要求用户向您提供对其计算机的远程访问权限并亲自查看所有内容。要求用户制作一个小视频，展示他如何重现此错误并将其发送给您。

当然，这两种情况并不总是可能的，但如果是的话，可能会澄清一些事情。查找错误的常见方法仍然是相同的：分离可能导致错误的部分，尝试了解发生的情况，缩小可能导致错误的代码空间。

回复收藏 0 原文

甜味超标? 2024-08-06 19:26:16

如果您正在开发一个真正的大型应用程序，您可能会遇到 1,000 个错误，其中大多数肯定是可重现的。

因此，我担心我可能会以 WORKSFORME (Bugzilla) 的形式关闭该错误，然后继续修复一些更明显的错误。或者做项目经理决定做的任何事情。

当然，进行随机更改是一个坏主意，即使它们是本地化的，因为您有引入新错误的风险。

回复收藏 0 原文

雪花飘飘的天空 2024-08-06 19:26:15

语言

不同的编程语言都会有自己的错误。

C

添加调试语句可以使问题不可能重复，因为调试语句本身将指针移动得足够远避免 SEGFAULT——也称为 Heisenbugs。指针问题很难跟踪和复制，但调试器可以提供帮助（例如 GDB 和 DDD）。

Java

具有多个线程的应用程序可能只会在非常特定的时间或事件序列中显示其错误。不正确的并发实现可能会在难以复制的情况下导致死锁。

JavaScript

一些网络浏览器因内存泄漏而臭名昭著。在一种浏览器中运行良好的 JavaScript 代码可能会在另一种浏览器中导致错误的行为。使用经过数千名用户严格测试的第三方库可以有利于避免某些隐蔽的错误。

环境

根据应用程序（有错误）运行的环境的复杂性，唯一的办法可能是简化环境。应用程序是否运行：

在服务器上？
在桌面上？
在网络浏览器中？

应用程序在什么环境下会产生问题？

发展？
测试？
生产？

退出无关的应用程序、终止后台任务、停止所有计划的事件（cron 作业）、消除插件以及卸载浏览器加载项。

网络

由于网络对于许多应用至关重要：

确保稳定的网络连接，包括无线信号。
网络故障后软件是否能够稳健地重新连接？
是否正确关闭所有连接以释放文件描述符？
人们是否使用了不应该使用的机器？
恶意设备是否与机器的网络进行交互？
附近是否有工厂或无线电塔会造成干扰？
数据包大小和频率是否在标称范围内？
是否正在监控数据包是否丢失？
所有网络设备都足以承受高带宽使用吗？

一致性

消除尽可能多的未知数：

隔离架构组件。
删除非必要的或可能有问题（冲突）的元素。
停用不同的应用程序模块。

消除生产、测试和开发之间的所有差异。使用相同的硬件。完全按照完全相同的步骤来设置计算机。一致性是关键。

日志记录

使用大量日志记录来关联事件发生的时间。检查日志是否有任何明显的错误、计时问题等。

硬件

如果软件看起来没问题，请考虑硬件故障：

物理网络连接是否牢固？
是否有任何松动的电缆？
芯片是否正确就位？
所有电缆的连接是否干净？
工作环境是否干净、无灰尘？
是否有任何隐藏的设备或电缆被啮齿动物或昆虫损坏？
驱动器上是否有坏块？
CPU 风扇是否工作？
主板能为所有组件供电吗？（CPU、网卡、显卡、驱动器等）
可以电磁干扰是罪魁祸首吗？

主要针对嵌入式：

电源旁路不足？
电路板污染？
焊点不良/回流不良？
当电源电压超出容限时 CPU 不会重置？
由于电源轨由 I/O 端口反向供电并且未完全放电而导致复位不良？
闩锁？
浮动输入引脚？
逻辑电平上的噪声容限不足（有时为负）？
时序余量不足（有时为负）？
锡晶须？
静电放电损坏？
ESD 令人不安？
芯片勘误表？
接口误用（例如 I2C 板外或存在高功率信号时）？
比赛条件？
假冒组件？

网络与本地

当您在本地（即不通过网络）运行应用程序时会发生什么？其他服务器是否也遇到同样的问题？数据库是远程的吗？可以使用本地数据库吗？

固件

介于硬件和软件之间的是固件。

计算机 BIOS 是否是最新的？
BIOS 电池是否工作？
BIOS时钟和系统时钟是否同步？

时间和统计

时间问题很难追踪：

问题什么时候发生？
多久一次？
当时还有哪些其他系统正在运行？
应用程序是否对时间敏感（例如，闰日或闰秒是否会导致问题）？

收集有关问题的硬数值数据。一个起初可能看起来是随机的问题，实际上可能有一个模式。

变更管理

有时，系统升级后会出现问题。

问题是从什么时候开始出现的？
环境（硬件和软件）发生了什么变化？
回滚到以前的版本后会发生什么？
有问题的版本和好的版本之间存在什么差异？

库管理

不同的操作系统有不同的方式来分发冲突的库：

Windows有DLL Hell< /em>.
Unix 可能有许多损坏的符号链接。
Java 库文件的解析同样是一场噩梦。

执行操作系统的全新安装，并仅包含您的应用程序所需的支持软件。

Java

确保每个库只使用一次。有时，应用程序容器具有与应用程序本身不同版本的库。这可能无法在开发环境中复制。

使用库管理工具，例如 Maven 或常春藤.

调试

代码一种在错误发生时触发通知（例如日志、电子邮件、弹出窗口、寻呼机蜂鸣声）的检测方法。使用自动化测试将数据提交到应用程序中。使用随机数据。使用涵盖已知和可能的边缘情况的数据。最终该错误应该会再次出现。

睡眠

值得重申其他人提到的：睡觉吧。花时间远离问题，完成其他任务（例如文档）。远离电脑并进行一些锻炼。

代码审查

逐行浏览代码，并描述每一行对您自己、同事或橡皮鸭。这可能会导致人们了解如何重现该错误。

宇宙辐射

宇宙射线可以翻转位。由于现代内存错误检查，这个问题不像过去那么大。由于宇宙辐射的随机性，离开地球保护的硬件软件会遇到一些根本无法复制的问题。

工具

有时，尽管不常见，编译器会引入错误，特别是对于利基工具（例如，遭受符号表溢出的 C 微控制器编译器）。是否可以使用不同的编译器？工具链中的其他工具是否会引入问题？

Language

Different programming languages will have their own flavour of bugs.

C

Adding debug statements can make the problem impossible to duplicate because the debug statement itself shifts pointers far enough to avoid a SEGFAULT---also known as Heisenbugs. Pointer issues are arduous to track and replicate, but debuggers can help (such as GDB and DDD).

Java

An application that has multiple threads might only show its bugs with a very specific timing or sequence of events. Improper concurrency implementations can cause deadlocks in situations that are difficult to replicate.

JavaScript

Some web browsers are notorious for memory leaks. JavaScript code that runs fine in one browser might cause incorrect behaviour in another browser. Using third-party libraries that have been rigorously tested by thousands of users can be advantageous to avoid certain obscure bugs.

Environment

Depending on the complexity of the environment in which the application (that has the bug) is running, the only recourse might be to simplify the environment. Does the application run:

on a server?
on a desktop?
in a web browser?

In what environment does the application produce the problem?

development?
test?
production?

Exit extraneous applications, kill background tasks, stop all scheduled events (cron jobs), eliminate plug-ins, and uninstall browser add-ons.

Networking

As networking is essential to so many applications:

Ensure stable network connections, including wireless signals.
Does the software reconnect after network failures robustly?
Do all connections get closed properly so as to release file descriptors?
Are people using the machine who shouldn't be?
Are rogue devices interacting with the machine's network?
Are there factories or radio towers nearby that can cause interference?
Do packet sizes and frequency fall within nominal ranges?
Are packets being monitored for loss?
Are all network devices adequate for heavy bandwidth usage?

Consistency

Eliminate as many unknowns as possible:

Isolate architectural components.
Remove non-essential, or possibly problematic (conflicting), elements.
Deactivate different application modules.

Remove all differences between production, test, and development. Use the same hardware. Follow the exact same steps, perfectly, to setup the computers. Consistency is key.

Logging

Use liberal amounts of logging to correlate the time events happened. Examine logs for any obvious errors, timing issues, etc.

Hardware

If the software seems okay, consider hardware faults:

Are the physical network connections solid?
Are there any loose cables?
Are chips seated properly?
Do all cables have clean connections?
Is the working environment clean and free of dust?
Have any hidden devices or cables been damaged by rodents or insects?
Are there bad blocks on drives?
Are the CPU fans working?
Can the motherboard power all components? (CPU, network card, video card, drives, etc.)
Could electromagnetic interference be the culprit?

And mostly for embedded:

Insufficient supply bypassing?
Board contamination?
Bad solder joints / bad reflow?
CPU not reset when supply voltages are out of tolerance?
Bad resets because supply rails are back-powered from I/O ports and don't fully discharge?
Latch-up?
Floating input pins?
Insufficient (sometimes negative) noise margins on logic levels?
Insufficient (sometimes negative) timing margins?
Tin whiskers?
ESD damage?
ESD upsets?
Chip errata?
Interface misuse (e.g. I2C off-board or in the presence of high-power signals)?
Race conditions?
Counterfeit components?

Network vs. Local

What happens when you run the application locally (i.e., not across the network)? Are other servers experiencing the same issues? Is the database remote? Can you use a local database?

Firmware

In between hardware and software is firmware.

Is the computer BIOS up-to-date?
Is the BIOS battery working?
Are the BIOS clock and system clock synchronized?

Time and Statistics

Timing issues are difficult to track:

When does the problem happen?
How frequently?
What other systems are running at that time?
Is the application time-sensitive (e.g., will leap days or leap seconds cause issues)?

Gather hard numerical data on the problem. A problem that might, at first, appear random, might actually have a pattern.

Change Management

Sometimes problems appear after a system upgrade.

When did the problem first start?
What changed in the environment (hardware and software)?
What happens after rolling back to a previous version?
What differences exist between the problematic version and good version?

Library Management

Different operating systems have different ways of distributing conflicting libraries:

Windows has DLL Hell.
Unix can have numerous broken symbolic links.
Java library files can be equally nightmarish to resolve.

Perform a fresh install of the operating system, and include only the supporting software required for your application.

Java

Make sure every library is used only once. Sometimes application containers have a different version of a library than the application itself. This might not be possible to replicate in the development environment.

Use a library management tool such as Maven or Ivy.

Debugging

Code a detection method that triggers a notification (e.g., log, e-mail, pop-up, pager beep) when the bug happens. Use automated testing to submit data into the application. Use random data. Use data that covers known and possible edge cases. Eventually the bug should reappear.

Sleep

It is worth reiterating what others have mentioned: sleep on it. Spend time away from the problem, finish other tasks (like documentation). Be physically distant from computers and get some exercise.

Code Review

Walk through the code, line-by-line, and describe what every line does to yourself, a co-worker, or a rubber duck. This may lead to insights on how to reproduce the bug.

Cosmic Radiation

Cosmic Rays can flip bits. This is not as big as a problem in the past due to modern error checking of memory. Software for hardware that leaves Earth's protection is subject to issues that simply cannot be replicated due to the randomness of cosmic radiation.

Tools

Sometimes, albeit infrequently, the compiler will introduce a bug, especially for niche tools (e.g. a C micro-controller compiler suffering from a symbol table overflow). Is it possible to use a different compiler? Could any other tool in the tool-chain be introducing issues?

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

26 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

琉璃梦幻

文章 0 评论 0

qq_4zWU6L

文章 0 评论 0

话少情深

文章 0 评论 0

西西弗的石头怪

文章 0 评论 0

彻夜缠绵

文章 0 评论 0

千寻…

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文