当前位置：文江博客话题详情

SSE 程序在 AMD 上比在 Intel 上花费的时间要长得多

发布于 2024-11-15 22:33:15 字数 397 浏览 4 评论 0原文

我正在使用 SSE2 指令优化算法。但我在测试性能时遇到了这个问题：

I) Intel e6750

执行 4 次非 SSE2 算法需要 14.85 秒
执行 1 次 SSE2 算法（处理相同的数据）需要 6.89 秒

II) Phenom II x4 2.8 Ghz

执行 4 次非 SSE2 算法需要 11.43 秒
执行 1 次 SSE2 算法（处理相同data）需要 12.15 秒

任何人都可以帮助我为什么会发生这种情况？我对结果真的很困惑。

在这两种情况下，我都使用 -O3 作为标志使用 g++ 进行编译。

PS：该算法不使用浮点数学，它使用 SSE 的整数指令。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

っ〆星空下的拥抱 2024-11-22 22:33:15

在过去 5 年左右的时间里，英特尔对其 SSE 实施进行了重大改进，而 AMD 并没有真正跟上。最初，两者实际上都只是 64 位执行单元，128 位操作被分解为 2 个微操作。不过，自从推出 Core 和 Core 2 以来，Intel CPU 就拥有完整的 128 位 SSE 实现，这意味着 128 位操作有效地获得了 2 倍的吞吐量提升（1 个微操作与 2 个微操作）。较新的 Intel CPU 还具有多个 SSE 执行单元，这意味着您可以获得 > 128 位 SIMD 指令每时钟吞吐量 1 条指令。

回复收藏 0 原文

~没有更多了~