x87 相对于 SSE 的优势

发布于 2024-08-14 02:42:52 字数 142 浏览 11 评论 0原文

我知道 x87 具有更高的内部精度，这可能是人们看到的它与 SSE 操作之间最大的区别。但我想知道，使用 x87 还有其他好处吗？我有在任何项目中自动输入 -mfpmath=sse 的习惯，我想知道我是否错过了 x87 FPU 提供的其他功能。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

鞋纸虽美，但不合脚ㄋ〞 2024-08-21 02:42:52

对于手写asm，x87有一些SSE指令集中不存在的指令。

在我的脑海里，都是三角函数，比如 fsin、fcos、fatan、fatan2 和一些指数/对数的东西。

使用gcc -O3 -ffast-math -mfpmath=387，GCC9将实际上仍然内联sin(x)作为fsin< /code> 指令，无论 libm 中的实现使用什么。（https://godbolt.org/z/Euc5gp）。

MSVC 在编译 32 位 x86 时调用 __libm_sse2_sin_precise。

如果您的代码大部分时间都花在做三角函数上，那么如果您使用 x87，您可能会看到轻微的性能增益或损失，具体取决于使用 SSE1/SSE2 的标准数学库实现比 的慢速微代码更快还是更慢fsin 在您使用的任何 CPU 上。

CPU 供应商并没有投入大量精力来优化最新一代 CPU 中 x87 指令的微代码，因为它通常被认为已过时且很少使用。（查看Agner Fog 指令表中最近几代 CPU 中复杂 x87 指令的 uop 计数和吞吐量：更多周期比旧的 CPU）。 CPU 越新，x87 计算 log、exp、pow 或 trig 函数的速度就越有可能比许多 SSE 或 AVX 指令慢。

即使 x87 可用，也不是所有数学库都选择使用像 fsin 这样的复杂指令来实现像 sin() 这样的函数，或者特别是 exp/log，其中使用整数技巧来操作基于日志的 FP 位模式很有用。

一些 DSP 算法使用大量三角函数，但通常可以从 SIMD 数学库的自动矢量化中受益匪浅。

然而，对于您花费大部分时间进行加法、乘法等的数学代码，SSE 通常更快。

另相关：英特尔低估错误界限为 1.3 quintillion - fsin 的最坏情况（非常接近 pi 的 fsin 输入发生灾难性取消）非常糟糕。软件可以做得更好，但只能使用缓慢的扩展精度技术。

回复收藏 0 原文

野心澎湃 2024-08-21 02:42:52

它存在于非常旧的机器上。

EOF

回复收藏 0 原文

橘香 2024-08-21 02:42:52

FPU 指令比 SSE 指令小，因此它们非常适合演示场景

回复收藏 0 原文

弥繁 2024-08-21 02:42:52

与 x87 具有相当大的遗留系统和小型系统兼容性：SSE 是一个相对较新的处理器功能。如果您的代码要在嵌入式微控制器上运行，则它很可能不支持 SSE 指令。
即使没有安装 FPU 的系统通常也会提供 80x87 模拟器，这将使代码透明地运行（或多或少）。我不知道有任何 SSE 模拟器 - 当然我的系统之一没有任何模拟器，因此最新的 Adobe Photoshop elements 版本无法运行。
80x87指令具有良好的并行操作特性，自1982年左右推出以来，已经对其进行了深入的探索和分析。 x86 的各种克隆可能会在 SSE 指令上停止。

回复收藏 0 原文

落叶缤纷 2024-08-21 02:42:52

使用 x87（通常免费）进行 float 和 double 之间的转换比使用 SSE 更快。使用 x87，您可以将 float、double 或 long double 加载到寄存器堆栈或从寄存器堆栈存储它们，并将其转换为扩展或从扩展精度，无需额外成本。对于 SSE，如果类型混合，则需要额外的指令来执行类型转换，因为寄存器包含 float 或 double 值。这些转换指令相当快，但确实需要额外的时间。

真正的解决办法是避免过度混合 float 和 double，当然也不要使用 x87。