定点算术值得我费力吗？

发布于 2024-08-29 22:10:16 字数 451 浏览 7 评论 0原文

我正在研究一个应该实时运行的流体动力学纳维-斯托克斯求解器。因此，性能很重要。

现在，我正在研究许多紧密循环，每个循环都占执行时间的很大一部分：不存在单一瓶颈。这些循环中的大多数都执行一些浮点运算，但中间有很多分支。

浮点运算主要限于加法、减法、乘法、除法和比较。所有这些都是使用 32 位浮点数完成的。我的目标平台是 x86，至少具有 SSE1 指令。（我已经在汇编器输出中验证了编译器确实生成了 SSE 指令。）

我正在使用的大多数浮点值都有一个相当小的上限，并且接近零值的精度并不是很重要。于是我想到：也许改用定点运算可以加快速度？我知道真正确定的唯一方法是衡量它，这可能需要几天的时间，所以我想提前知道成功的几率。

定点在《毁灭战士》时代曾风靡一时，但我不确定 2010 年它的地位如何。考虑到现在有多少芯片被投入到浮点性能中，定点运算是否还有可能继续存在给我显着的速度提升？有人有可能适用于我的情况的现实经验吗？

需要登录才能够评论，你可以免费注册一个本站的账号。

梦回旧景 2024-09-05 22:10:16

坚持使用浮点。仅当您可以在 8 位或 16 位内工作并使用 SIMD 时，定点实际上才有用（图像处理和音频是这种情况的典型用例）。

现代 CPU 通常有 2 个 FPU，每个时钟周期最多可以发出 2 个 FP 指令。然后，您还可以使用 4 路 FP SIMD (SSE) 进行优化。

如果您仍在努力获得良好的性能，请尝试使用更好的编译器，例如英特尔的 ICC。此外，由于 64 位模型中的寄存器数量增加，64 位 Intel 可执行文件往往比 32 位可执行文件要快一些，因此如果可以的话，请构建 64 位。

当然，您也应该分析您的代码，以便您确定热点在哪里。您没有说明您正在使用什么操作系统，而是在 Windows 上使用 VTune， Linux 上的 Zoom 或 Shark 将帮助您快速轻松地找到性能瓶颈。

可爱咩 2024-09-05 22:10:16

正如其他人所说，如果您已经在使用浮点 SIMD，我怀疑定点会带来很大的改进。

您说编译器正在发出 SSE 指令，但听起来您并没有尝试编写矢量化 SSE 代码。我不知道编译器通常在这方面做得有多好，但这是值得研究的事情。

另外两个需要注意的方面是：

内存访问 - 如果所有计算都是在 SSE 中完成，那么缓存未命中可能会比实际数学占用更多时间。
1. 您可以使用 _mm_prefetch 或 __builtin_prefetch 等方式预取数据（取决于您的编译器/平台）。
2. 检查昂贵的函数是否存在输入和输出之间的别名；这些可能会导致额外的内存读/写。
3. 考虑以不同的方式存储数据 - 如果流体解算器独立于 y 坐标求解 x 坐标，则将它们存储在不同的数组中可能更适合缓存。如果它们一起解决，请考虑交错（例如 xyx y...）
展开 - 您应该能够通过展开内部循环来获得性能优势。目标并不是（如许多人认为的那样）减少循环终止检查的数量。主要好处是允许独立指令交错，以隐藏指令延迟。此处有一个题为VMX优化：提升水平的演示文稿这可能会有所帮助；它主要关注 Xbox360 上的 Altivec 指令，但一些展开建议也可能对 SSE 有帮助。

正如其他人提到的，个人资料，个人资料，个人资料。然后让我们知道什么仍然很慢:)

PS - 在您的其他帖子之一