我应该多么担心英特尔 C++ 编译器为 AMD 发出次优代码？

发布于 2024-07-19 08:30:23 字数 1140 浏览 20 评论 0 原文

我们一直是英特尔商店。所有开发人员都使用 Intel 机器，向最终用户推荐的平台是 Intel，如果最终用户想在 AMD 上运行，那就要注意了。也许测试部门有一台 AMD 机器来检查我们没有运送任何完全损坏的东西，但仅此而已。

直到几年前，我们还只是使用 MSVC 编译器，并且由于它并没有真正提供超出 SSE 级别的大量处理器调整选项，因此没有人太担心代码是否可能更适合某个 x86 供应商而不是另一个供应商。然而，最近我们大量使用英特尔编译器。我们的产品肯定会从中获得一些显着的性能优势（在我们的英特尔硬件上），并且其矢量化功能意味着更少需要使用 asm/内在函数。然而，人们开始有点担心英特尔编译器是否真的无法为 AMD 硬件做好工作。当然，如果您进入 Intel CRT 或 IPP 库，您会看到大量 cpuid 查询，显然是为了设置优化函数的跳转表。不过，英特尔似乎不太可能费尽心思为 AMD 芯片做任何好事。

有这方面经验的人可以评论一下这在实践中是否有什么大不了的吗？（我们自己还没有对 AMD 进行过任何性能测试）。

更新 2010-01-04：支持 AMD 的需求从未变得具体到足以让我自己进行任何测试。这里有一些关于这个问题的有趣读物，此处和不过这里。

2010-08-09 更新：英特尔与 FTC 的和解似乎对这个问题有话要说 - 请参阅本文。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一曲琵琶半遮面シ 2024-07-26 08:30:23

购买一个 AMD 盒子并在上面运行它。这似乎是唯一负责任的做法，而不是相信互联网上的陌生人；）

除此之外，我相信 AMD 针对英特尔的诉讼的部分内容是基于这样的说法：英特尔的编译器专门生成在 AMD 处理器上运行效率低下的代码。我不知道这是真是假，但 AMD 似乎是这么认为的。

但即使他们不是故意这样做，毫无疑问，英特尔的编译器专门针对英特尔处理器进行了优化，而不是其他。

当这么说时，我怀疑这会产生巨大的影响。 AMD CPU 仍将受益于编译器的所有自动矢量化和其他巧妙功能。

回复收藏 0 原文

随心而道 2024-07-26 08:30:23

我肯定会说显而易见的事情，如果性能对于您的应用程序至关重要，那么您最好对硬件/编译器的所有组合进行一些测试。没有任何保证。作为局外人，我们只能给你我们的猜测/偏见。您的软件可能具有与我们所见过的不同的独特特征。

我的经验：

我曾经在英特尔工作，开发了一个内部（C++）应用程序，其中性能至关重要。我们尝试使用英特尔的 C++ 编译器，但它总是执行 gcc - 即使在执行配置文件运行、使用配置文件信息重新编译（icc 据称用于优化）并在完全相同的数据集上重新运行后也是如此（这是2005-2007年的情况，现在情况可能有所不同）。因此，根据我的经验，您可能想尝试 gcc（除了 icc 和 MSVC），这样您可能会获得更好的性能并回避问题。切换编译器应该不会太难（如果您的构建过程合理）。

现在我在另一家公司工作，IT人员进行了大量的硬件测试，有一段时间英特尔和AMD的硬件相对具有可比性，但最新一代的英特尔硬件明显优于AMD。因此，我相信他们购买了大量的英特尔 CPU，并向运行我们软件的客户推荐同样的产品。

但是，回到 Intel 编译器是否专门针对 AMD 硬件运行缓慢的问题。我怀疑英特尔是否会为此烦恼。某些使用有关 Intel CPU 架构或芯片组内部知识的优化可能在 AMD 硬件上运行速度较慢，但我怀疑它们专门针对 AMD 硬件。

回复收藏 0 原文

瞄了个咪的 2024-07-26 08:30:23

我们所看到的是，无论何时英特尔编译器必须对可用指令集进行运行时选择，如果它无法识别英特尔CPU，它就会进入其“标准”代码（正如您所期望的那样，这可能不是最佳的））。

请注意，即使我在上面使用了“编译器”一词，这也主要发生在他们提供的（预编译的）库和内在函数中，这些库和内在函数检查指令集并调用最佳代码。

回复收藏 0 原文

昔日梦未散 2024-07-26 08:30:23

抱歉，如果您按下了我的通用按钮。

这是低级优化的主题，因此仅对以下代码重要：1）程序计数器花费大量时间，2）编译器实际看到的代码。例如，如果 PC 将大部分时间花费在您不编译的库例程中，那么这应该不会有太大影响。

是否条件1& 2 满足，这是我对优化过程的经验：

完成了多次采样和修复迭代。在每个问题中，都会识别出一个问题，但大多数情况下，问题与程序计数器的位置无关。相反，由于性能至关重要，因此可以替换调用堆栈中层的函数调用。为了快速找到它们，我这样做.

请记住，如果有一条函数调用指令在执行时间的很大一部分时间内都位于堆栈上，无论是在几次长调用中，还是在许多短调用中，该调用都会对该部分负责时间，因此删除它或减少执行频率可以节省大量时间。而且，这种节省远远超过任何低级优化。

该程序现在可以比开始时快很多倍。
我从未见过任何大型程序，无论编写得多么仔细，都不能从这个过程中受益。
如果该过程尚未完成，则不应假设低级优化是加速程序的唯一方法。

当这个过程完成到根本无法再完成的程度之后，如果样本显示 PC 处于编译器看到的代码中，那么低级优化可以产生影响。

回复收藏 0 原文

情痴 2024-07-26 08:30:23

在该线程启动时，Microsoft C++ 默认进行代码生成，这在某些情况下对 AMD 有利，但对 Intel 不利。他们最新的编译器默认使用混合选项，这对两者都有好处，特别是在两个品牌的 CPU 都解决了各自特有的性能错误之后。
当我第一次在英特尔工作时，他们的编译器为英特尔特定的架构设置保留了一些优化。我想这可能是一些 FTC 证词的主题，尽管它在我 10 小时的证词中没有出现，而且由于最新 CPU 模型和需要更高效地利用编译器开发时间。
如果您在最新的 Intel CPU 上使用这些过时的编译器之一，您可能会看到一些相同的性能缺陷。