程序在长时间运行时停止

发布于 2024-12-10 18:07:10 字数 352 浏览 0 评论 0原文

我正在运行 Ubuntu 服务器 10.04.3 的计算机上运行模拟。短时间运行（<24 小时）运行良好，但长时间运行最终会停止。我所说的停顿是指程序不再获得任何 CPU 时间，但它仍然将所有信息保存在内存中。为了运行这些模拟，我通过 SSH 并 nohup 程序并将所有输出通过管道传输到文件。

其他信息：

系统绝对没有耗尽 RAM。程序在完成之前不需要读取或写入硬盘；计算完全在内存中完成。该程序没有被杀死，因为它在停止后仍然有一个 PID。我正在使用 openmp，但增加了最大进程数，并且最大时间是无限的。我正在使用 ARPACK fortran 库找到矩阵的最大特征值。

关于导致此行为的原因或如何恢复我当前停滞的程序有什么想法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

滴情不沾 2024-12-17 18:07:10

我认为这是您标签中的 OpenMP 程序，尽管您从未真正声明过这一点。 ARPACK 线程安全吗？

听起来您遇到了死锁（在 MPI 程序中比 OpenMP 更常见，但这绝对是可能的）。要做的第一件事是在打开调试标志的情况下进行编译，然后下次发现此问题时，附加调试器并找出各个线程正在做什么。例如，对于 gdb，显示了一些在线程之间切换的说明这里。

回复收藏 0 原文

在风中等你 2024-12-17 18:07:10

下次你的程序“停顿”时，将 GDB 附加到它并执行线程应用所有位置。

如果你的所有线程都被阻塞等待某个互斥体，你就会有一个
僵局。
如果他们正在等待其他事情（例如读取），那么您需要找出阻止操作完成的原因。

通常，在 UNIX 上，您不需要打开调试标志来重建以获得有意义的堆栈跟踪。您不会获得文件/行号，但诊断问题可能不需要它们。

回复收藏 0 原文

十雾 2024-12-17 18:07:10

理解正在运行的程序（即进程）正在执行的操作的一种可能方法是使用 gdb program *pid* 将调试器附加到它（仅当程序已使用使用-g启用调试），或者使用strace对其进行调试，使用strace -p *pid*。 strace 命令是一个实用程序（从技术上讲，是在 ptrace 系统调用接口之上构建的专用调试器），它显示程序或进程完成的所有系统调用。

还有一个名为 ltrace 的变体，它可以拦截对动态库中函数的调用。

要感受一下，可以尝试一下 strace ls

当然，如果正在运行的程序没有执行任何系统调用，strace 不会对您有太大帮助。