使用超线程运行模拟使运行时间加倍

发布于 2024-12-20 03:40:40 字数 396 浏览 2 评论 0 原文

我使用用 python/numpy/cython 编写的模拟。由于我需要对许多模拟运行进行平均，因此我使用多处理模块来批量运行所有单独的模拟运行。

在办公室，我有一个带 HT 的 i7-920 工作站。我家里有一台 i5-560，没有。我认为我可以在办公室中每批运行两倍的模拟实例，并将运行时间减少一半。令人惊讶的是，与我的家庭工作站上花费的时间相比，每个实例的运行时间增加了一倍。也就是说，在家中并行运行 3 个模拟实例大约需要 8 分钟，而在办公室运行 6 个实例大约需要 15 分钟。使用“cat /proc/cpuinfo”我验证了“siblings”= 8 和“cpu cores”= 4，因此启用了 HT。

我不知道任何“总运行时间守恒”定律（尽管从科学的角度来看它可能非常有趣:)），并且希望这里有人可能会对这个难题有所启发。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

不美如何 2024-12-27 03:40:40

超线程可能适合某些类型的工作负载。密集的数值计算不是其中之一 - 当您想要进行一些数字运算时，您最好关闭超线程。
超线程提供的是任务之间“自由的上下文切换”，但CPU只有这么多的执行单元。

在这种情况下，它可能会使事情变得更糟，因为操作系统无法知道哪些进程在单独的内核上运行（它们将在其中获得全部性能），以及哪些进程在同一内核上运行，只是在不同的“超线程”上。

（实际上，我敢打赌 Linux 内核可以提供一种方法来对此进行精细控制，但 Python 的多处理模块只会启动使用默认资源分配的额外进程）。

底线：如果可以的话，关闭 HT - 至少你会充分利用 4 个核心。

回复收藏 0 原文

嘴硬脾气大 2024-12-27 03:40:40

也许上下文切换会产生更多开销，这是由 6 个大规模计算进程和只有 4 个真正的核心造成的。如果进程竞争 cpu 资源，它们可能会使用低效的 cpu 缓存。

如果只启用 4 核而不是 6 核，结果会怎样？

回复收藏 0 原文

深海里的那抹蓝 2024-12-27 03:40:40

其他人已经让您对这个问题有了深入的了解，我只是想通过链接这篇文章来做出贡献，该文章详细解释了 HT 的工作原理以及对多线程程序性能的影响：http://software.intel.com/en-us/articles/performance-insights-to-intel-hyper-threading-technology/