Linux 上同一进程的线程之间上下文切换的成本

发布于 2024-11-06 17:27:21 字数 516 浏览 9 评论 0原文

关于 Linux 上同一进程的线程之间的上下文切换成本，是否有任何好的经验数据（主要是 x86 和 x86_64）？我指的是一个线程在自愿或非自愿进入睡眠状态之前在用户空间中执行的最后一条指令与同一进程的不同线程在同一 CPU/核心上唤醒后执行的第一条指令之间的周期数或纳秒数。

我编写了一个快速测试程序，该程序在分配给同一 CPU/核心的 2 个线程中不断执行 rdtsc，将结果存储在易失性变量中，并与其姐妹线程相应的易失性变量进行比较。当它第一次检测到姐妹线程的值发生变化时，它会打印差异，然后返回循环。我在 Atom D510 cpu 上以这种方式获得的最小/中值计数约为 8900/9600 个周期。这个程序看起来合理吗？这些数字看起来可信吗？

我的目标是估计在现代系统上，每个连接线程服务器模型是否可以与选择类型多路复用竞争甚至优于选择类型多路复用。这在理论上似乎是合理的，因为从在 fd X 上执行 IO 到 fd Y 的转换只涉及在一个线程中休眠并在另一个线程中唤醒，而不是多个系统调用，但这取决于上下文切换的开销。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

唔猫 2024-11-13 17:27:22

（免责声明：这不是问题的直接答案，只是一些我希望有所帮助的建议）。

首先，您得到的数字听起来确实在大致范围内。但请注意，在实现相同 ISA 的不同 CPU 型号之间，中断/陷阱延迟可能会有很大差异。如果您的线程使用了浮点或向量运算，情况也会有所不同，因为如果没有，内核会避免保存/恢复浮点或向量单元状态。

您应该能够通过使用内核跟踪基础设施获得更准确的数字 - perf sched< /a> 特别设计用于测量和分析调度程序延迟。

如果您的目标是对每个连接的线程进行建模，那么您可能不应该测量非自愿上下文切换延迟 - 通常在这样的服务器中，大多数上下文切换都是自愿的，因为线程会阻塞在 read 中() 等待来自网络的更多数据。因此，更好的测试台可能需要测量从一个线程在 read() 中阻塞到另一个线程被唤醒的延迟。

请注意，在重负载下编写良好的多路复用服务器中，从 fd X 到 fd Y 的转换通常会涉及相同的单个系统调用（因为服务器会迭代从单个 epoll() 返回的活动文件描述符列表）。一个线程还应该比多个线程拥有更少的缓存占用空间，只需一个堆栈即可。我怀疑解决问题的唯一方法（对于“解决”的某些定义）可能是进行基准枪战......