当前位置：文江博客话题详情

如何从 SSE 获得最大速度？

发布于 2024-11-27 11:19:54 字数 247 浏览 8 评论 0原文

MXCSR 等内容的最佳设置是什么？哪种舍入模式最快？在什么处理器上？启用 NaN 信号是否更快，以便我在计算结果为 nan 时收到通知，或者这是否会导致非 NaN 计算速度减慢？

总之，如何从紧密的内部 SSE 循环中获得最大速度？

也欢迎任何相关的 x87 浮点速度建议。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

雨落□心尘 2024-12-04 11:19:55

如果您的计算可能会遇到非正规数，并且非常小的值的准确性对您的计算并不重要，那么请务必打开 FZ 和 DAZ（在计算开始时一次；不要过多地接触 MXCSR））。如果您的计算不涉及非正规值，它们不会产生任何影响，但如果涉及非正规值，差异可能会非常显着。

其他 MXCSR 位对性能完全没有任何影响。

唯一与 x87 相关的性能建议是：不要使用 x87 单元。尽可能在 SSE 中进行计算。

回复收藏 0 原文

落墨 2024-12-04 11:19:54

使用“清零”和“非正规数为零”模式：它们旨在以您可能不会注意到的精度成本提高速度。

我怀疑不同的舍入模式具有不同的成本。理论上，舍入到最接近的值是最难的，但在硬件实现中，我猜想在相同数量的周期中执行此操作的附加晶体管可能无论如何都存在，并且只是不用于定向舍入。

发信号 NaN 不会减慢非 NaN 计算的速度。

在计算之前仅设置一次控制标志字：在计算期间更改它将使您实现的任何节省相形见绌。

回复收藏 0 原文

~没有更多了~

关于作者

夜光

暂无简介

文章

27 人气

关注发私信

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

如何从 SSE 获得最大速度？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者