现代机器的内存带宽性能

发布于 2024-08-25 09:07:22 字数 596 浏览 14 评论 0原文

我正在设计一个实时系统，偶尔需要复制大量内存。内存由非微小区域组成，因此我预计复制性能将相当接近相关组件（CPU、RAM、MB）可以执行的最大带宽。这让我想知道现代商用机器可以聚集什么样的原始内存带宽？

如果我使用 1 个线程进行 memcpy()，我老化的 Core2Duo 的速度为 1.5 GB/s（如果我同时使用两个内核 memcpy()，则性能会降低，这是可以理解的。）而 1.5 GB是相当大量的数据，我正在开发的实时应用程序将具有大约 1/50 秒的数据，这意味着 30 MB。基本上，几乎什么都没有。也许最糟糕的是，当我添加多个核心时，我可以处理更多的数据，而无需提高所需复制步骤的性能。

但低端 Core2Due 现在并不是很热门。是否有任何网站提供有关当前和近期硬件上的原始内存带宽的信息，例如实际基准测试？

此外，对于在内存中复制大量数据，是否有任何快捷方式，或者 memcpy() 是否足够好？

给定一堆核心除了在短时间内复制尽可能多的内存之外无所事事，我能做的最好的是什么？

编辑：我仍在寻找有关原始内存复制性能的良好信息。我刚刚运行了旧的 memcpy() 基准测试。相同的机器和设置，现在提供 2.5 GB/s...

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

独﹏钓一江月 2024-09-01 09:07:22

在 Nehalem 等较新的 CPU 上，以及自 Opteron 以来的 AMD 上，内存是一个 CPU 的“本地”内存，其中单个 CPU 可能有多个内核。也就是说，核心需要一定的时间来访问连接到其CPU的本地内存，并且核心需要更多的时间来访问远程内存，其中远程内存是其他CPU的本地内存。这称为非均匀内存访问或 NUMA。为了获得最佳的 memcpy 性能，您需要将 BIOS 设置为 NUMA 模式，将线程固定到内核，并始终访问本地内存。了解维基百科上的 NUMA 的更多信息。

不幸的是，我不知道有关于最新 CPU 和芯片组上 memcpy 性能的网站或最近的论文。你最好的选择可能是自己测试一下。

至于 memcpy() 性能，根据实现的不同，存在很大的差异。例如，Intel C 库（或者可能是编译器本身）有一个 memcpy()，它比 Visual Studio 2005 提供的库快得多。至少在英特尔机器上是这样。

您能够执行的最佳内存复制取决于数据的对齐方式、是否能够使用向量指令以及页面大小等。实现一个好的 memcpy() 是令人惊讶的。，所以我建议在编写自己的实现之前找到并测试尽可能多的实现。如果您了解有关副本的更多细节，例如对齐和大小，您可能能够比英特尔的memcpy()更快地实现某些功能。如果您想了解详细信息，可以从 Intel 和 AMD 优化指南开始，或者 Agner Fog 的软件优化页面。