SSE 优化代码的性能与普通版本类似

发布于 2024-11-29 07:08:35 字数 472 浏览 11 评论 0原文

我想迈出使用英特尔 SSE 的第一步，因此我遵循了发布的指南此处，区别在于，我不是为 Windows 和 C++ 开发，而是为 Linux 和 C 开发（因此我不使用任何 _aligned_malloc 但posix_memalign ）。

我还在不使用 SSE 扩展的情况下实现了一种计算密集型方法。令人惊讶的是，当我运行该程序时，两段代码（带 SSE 的代码和不带 SSE 的代码）花费的运行时间相似，通常使用 SSE 的代码的时间略高于另一代码的时间。

这正常吗？ GCC 有可能已经使用 SSE 进行了优化（也使用 -O0 选项）吗？我也尝试了 -mfpmath=387 选项，但没办法，还是一样。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我不会写诗 2024-12-06 07:08:35

对于浮点运算，您可能看不到 SSE 的巨大优势。大多数现代 x86 CPU 都有两个 FPU，因此双精度 SIMD 与标量的速度可能大致相同，而单精度可能会为 SIMD 提供比标量快 2 倍的速度。但对于整数运算，例如 8 或 16 位的图像或音频处理，您仍然可以通过 SSE 获得巨大的好处。

回复收藏 0 原文

倾城泪 2024-12-06 07:08:35

GCC 有一个非常好的内置代码矢量化器（iirc 在 -O0 及以上启动），因此这意味着它将在任何可以使用 SIMD 的地方来加速标量代码（它也会稍微优化 SIMD 代码）如果可能的话）。

很容易确认这确实是这里发生的事情，只需反汇编输出（或者让 gcc 发出注释的 asm 文件）。

回复收藏 0 原文

~没有更多了~

关于作者

梦过后

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

SSE 优化代码的性能与普通版本类似

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

SSE 优化代码的性能与普通版本类似

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。