C++ 的速度运算符/简单数学

发布于 2024-12-21 03:37:01 字数 421 浏览 2 评论 0原文

我正在开发一个物理引擎，觉得它将有助于更好地理解执行许多简单或复杂数学运算的速度和性能影响。

物理引擎的很大一部分正在清除不必要的计算，但是什么时候计算量足够小以至于不需要进行比较检查？
- 例如：测试两条线段是否相交。在直接进行简单的数学计算之前是否应该检查它们是否彼此靠近，或者从长远来看，额外的操作会减慢整个过程？
不同的数学计算需要多少时间
- 例如：(3+8) vs (5x4) vs (log(8)) 等
不等式需要多少时间检查需要吗？
- 例如：>、<、=

需要登录才能够评论，你可以免费注册一个本站的账号。

丢了幸福的猪 2024-12-28 03:37:01

除非您分析代码，否则无法判断瓶颈在哪里。

除非您调用数学运算数百万次（即使您这样做了），选择好的算法或其他一些高级优化将比优化小东西带来更大的速度增益。

您应该编写易于阅读和易于修改的代码，并且只有当您对性能不满意时，才开始优化 - 首先是高级，然后是低级。

您可能还想尝试动态编程或缓存。

困倦 2024-12-28 03:37:01

嗯，这取决于您的硬件。具有指令延迟的非常好的表是 http://www.agner.org/optimize/instruction_tables.pdf< /a>

1. 这很大程度上取决于代码。另外不要忘记，它不仅仅取决于计算，还取决于比较结果的预测程度。

2. 一般来说，加法/减法非常快，浮点乘法则稍慢一些。浮点数除法相当慢（如果您需要除以常数 c，通常最好预先计算 1/c 并乘以它）。库函数通常（我敢说总是）比简单运算符慢，除非编译器决定使用 SSE。例如，可以使用一条 SSE 指令计算 sqrt() 和 1/sqrt()。

3.从大约一个周期到几十个周期。当前的处理器根据条件进行预测。如果预测正确的话，速度会很快。然而，如果预测错误，处理器必须丢弃所有预加载的指令（IIRC Sandy Bridge 预加载最多 30 条指令）并开始处理新指令。

这意味着如果您有一个在大多数情况下都满足条件的代码，那么速度会很快。同样，如果您的代码大多数时候不满足条件，那么速度会很快。简单的交替条件（TFTFTF…）通常也很快。

暮凉 2024-12-28 03:37:01

关于2和3，我可以建议您参考英特尔® 64 和 IA-32 架构优化参考手册。附录 C 介绍了各种指令的延迟和吞吐量。
但是，除非您手动编写汇编代码，否则编译器将应用其自己的优化，因此直接使用此信息将相当困难。

更重要的是，您可以使用 SIMD 对代码进行矢量化并并行运行计算。此外，如果内存布局不理想，内存性能也可能成为瓶颈。我链接到的文档有关于这两个问题的章节。

然而，正如 @Ph0en1x 所说，第一步是选择（或编写）一个有效的算法，使其适合您的问题。只有这样，您才应该开始考虑低级优化。

至于1，在一般情况下，我会说，如果您的算法以这样的方式工作，对于何时执行某些测试有一些可调整的阈值，您可以进行一些分析并打印出某种性能图，并且确定这些阈值的最佳值。

红ご颜醉 2024-12-28 03:37:01

这取决于您尝试模拟的场景。您有多少个物体以及它们的距离有多近？它们是聚集还是均匀分布？你的物体经常移动，还是静止的？您将必须运行测试。用于快速检查邻近度的可能数据结构是 kd-trees 或局部敏感哈希（可能还有其他）。我不确定这些是否适合您的应用程序，您必须检查数据结构的维护和查找成本是否适合您。
您将必须运行测试。考虑检查是否可以使用矢量化，或者是否可以运行某些使用 CUDA 或类似的东西在 GPU 中进行计算。
与上面相同 - 你必须进行测试。