确保编译器始终使用 SSE sqrt 指令
我试图让 GCC(或 clang)始终使用 SSE 指令进行 sqrt,而不是数学库函数来进行计算密集型科学应用程序。我在各种 32 位和 64 位 OS X 和 Linux 系统上尝试过各种 GCC。我确保使用 -mfpmath=sse 启用 sse(并且 -march=core2 以满足 GCC 在 32 位上使用 -mfpmath=sse 的要求)。我也在使用-O3。根据 GCC 或 clang 版本,生成的程序集并不始终使用 SSE 的 sqrtss。在 GCC 的某些版本中,所有 sqrt 都使用该指令。在其他情况下,混合使用 sqrtss 和调用数学库函数。有没有办法给出提示或强制编译器仅使用SSE指令?
I'm trying to get GCC (or clang) to consistently use the SSE instruction for sqrt instead of the math library function for a computationally intensive scientific application. I've tried a variety of GCCs on various 32 and 64 bit OS X and Linux systems. I'm making sure to enable sse with -mfpmath=sse (and -march=core2 to satisfy GCCs requirement to use -mfpmath=sse on 32 bit). I'm also using -O3. Depending on the GCC or clang version, the generated assembly doesn't consistently use SSE's sqrtss. In some versions of GCC, all the sqrts use the instruction. In others, there is mixed usage of sqrtss and calling the math library function. Is there a way to give a hint or force the compiler to only use the SSE instruction?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
使用
sqrtss
内在__builtin_ia32_sqrtss
?Use the
sqrtss
intrinsic__builtin_ia32_sqrtss
?您应该小心使用它,您可能知道它的精度较低。这就是 gcc 没有系统地使用它的原因。
INTEL的SSE手册中甚至提到了一个技巧(希望我没记错)。
sqrtss
的结果与目标仅相差一次 Heron 迭代。也许 gcc 有时能够在某些点(版本)内内联
周围的简短迭代,而对于其他点则不能。您可以像 MSN 所说的那样使用内置功能,但您应该明确地在 INTEL 网站上查找规格,以了解您正在交易的内容。
You should be carefull in using that, you probably know that it has less precicision. That will be the reason that gcc doesn't use it systematically.
There is a trick that is even mentionned in INTEL's SSE manual (I hope that I remember correctly). The result of
sqrtss
is only one Heron iteration away from the target. Maybe that gcc is sometimes able toinline
that surrounding brief iteration at some point (versions) and for others it doesn't.You could use the builtin as MSN says, but you should definitively look up the specs on INTEL's web site to know what you are trading.