fork系统调用导致分段错误

发布于 2024-09-03 19:17:18 字数 689 浏览 11 评论 0原文

我编写了一个多线程程序，并且该线程的实现方式是分叉一个子进程，并通过该子进程加载多个模块。

在我的一次测试过程中，我发现进程（在Solaris平台中运行）一次中止并产生了分段错误。在查看转储文件时，我真的很震惊地发现，solaris 中的 fork() 系统调用导致了此分段错误。

下面是 fork() 中止时的堆栈跟踪：

(l@5) stopped in (unknown) at 0xfe524970
0xfe524970:     <bad address 0xfe524970>
(/opt/SUNWspro/bin/../WS6U2/bin/sparcv9/dbx) where
  [1] 0xfe524970(0xfe524970, 0x0, 0xffffffff, 0x1, 0x0, 0x0), at 0xfe52496f
  [2] run_prefork(0xfecc04b8, 0xfecc04d0, 0x242f4, 0xfea5d3c8, 0x0, 0x0), at 0xfec97ce8
  [3] _ti_fork1(0x1, 0x1ab18, 0x0, 0x0, 0x0, 0x0), at 0xfea5d3c8
  [4] _ti_fork(0x0, 0x0, 0x0, 0x0, 0x0, 0x0), at 0xfea5d50c

任何人都可以描述为什么 Solaris 中的 fork() 系统调用会导致此行为吗？

原文

I have written a multithreaded program and the thread was implemented in such a way that as to fork a child process and through this child process several modules were loaded.

During my testing at one time, i find process (running in solaris platform) aborts one time and it creates a segementation fault. On going through the dump file, i really shocked to see that fork() system call in solaris causes this segmentation fault.

Below was the stack trace at the time of fork() abort:

(l@5) stopped in (unknown) at 0xfe524970
0xfe524970:     <bad address 0xfe524970>
(/opt/SUNWspro/bin/../WS6U2/bin/sparcv9/dbx) where
  [1] 0xfe524970(0xfe524970, 0x0, 0xffffffff, 0x1, 0x0, 0x0), at 0xfe52496f
  [2] run_prefork(0xfecc04b8, 0xfecc04d0, 0x242f4, 0xfea5d3c8, 0x0, 0x0), at 0xfec97ce8
  [3] _ti_fork1(0x1, 0x1ab18, 0x0, 0x0, 0x0, 0x0), at 0xfea5d3c8
  [4] _ti_fork(0x0, 0x0, 0x0, 0x0, 0x0, 0x0), at 0xfea5d50c

Can anyone describe why the fork() system call in solaris causes this behaviour?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

凉城 2024-09-10 19:17:18

另外：

一种可能的情况是（以C++为例）：

线程A中创建一个对象，
线程B调用一个调用fork()的方法
，线程A删除了该对象，而线程B仍然在在运行 fork() 之前然后
，根据时间，在实际调用 fork() 期间，内存地址无效，

这或多或少可能会发生。也许您可以通过引入一些睡眠来强制这种情况...（如果您觉得可能是这种情况）

另一个问题可能是某些硬件缺陷。在进一步查看之前，我会使用一个工具来检查 RAM 运行情况并查看是否存在问题。如果是这种情况，请告诉我们。

另一种可能性是系统代码中存在错误，该错误无法解释为什么有时可以工作有时不能。对我来说，这听起来不太可能是问题所在。

PS 0xfe52496f 处的地址是奇数/不是四的倍数，这对于优化程序来说并不常见。这也是 RAM 缺陷方向的暗示...我希望我是错的，另一方面，如果我是对的，你知道该怎么做...

回复收藏 0 原文

不羁少年 2024-09-10 19:17:18

混合使用叉子和螺纹通常是不明智的。这是因为分叉的进程只有一个线程，即调用 fork 的线程。新进程中不存在所有其他线程，这意味着任何共享内存资源都处于未知状态。另一个线程可以持有互斥锁并且永远不会释放它，等等。有一些机制可以缓解这种情况，例如 pthread_atfork，但作为一般规则，在处理多个线程时，您应该只 fork 尽快调用 exec。您是在父进程还是新子进程中出现段错误？

回复收藏 0 原文