为什么 Bresenham 直线算法比 Naive 算法更有效

发布于 2024-12-23 06:07:56 字数 645 浏览 3 评论 0原文

在我的图形课程中，我们学习了 Naive 线光栅化算法，然后是 Bresenham 的线绘制算法。我们被告知计算机是整数机器，这就是为什么我们应该使用后者。

如果我们假设没有软件级别的优化，对于具有 mmx 和其他指令集的现代 CPU 来说也是如此吗？正如我查看过 Intel 的 64-ia-32-architectures-optimization-manual.pdf 一样，与 mmx 的 int 相比，加减乘法的延迟与 float 相同或更好。
如果算法在 GPU 中执行，这会重要吗？已检查NVIDIA CUDA 编程指南 1.0 (pdf)，第 41 页，int 和 float 的时钟周期相同。
将 float 转换为 int 的效率低下是什么？ load-hit-storestall 对我们来说是一个真正的问题吗？
向上/向下舍入数字的函数的效率如何？（我们可以想到c++ stl中的实现）
内循环中使用的乘法

需要登录才能够评论，你可以免费注册一个本站的账号。

挽清梦 2024-12-30 06:07:56

将计算机称为整数机器有点误导，但这种观点大多是正确的。据我所知，CPU 使用整数寄存器来生成要读取和写入的内存地址。将线条绘制保留在整数寄存器中意味着您可以避免从其他寄存器复制到整数寄存器以生成线条绘制期间写入像素的内存地址的开销。

至于您的具体问题：

由于您需要使用通用寄存器来访问内存，因此使用 SSE 或 FPU 来计算内存偏移量（指针）仍然会产生将数据从这些寄存器传输到通用寄存器的开销。所以这取决于从一个寄存器集转移到另一个寄存器集的开销是否大于使用特定指令集的性能。
GPU 往往有统一的寄存器集，因此它应该没有那么重要。
将 float 转换为 int 本身并不昂贵。开销来自于将数据从一个寄存器组传输到另一组寄存器。通常这必须通过内存来完成，如果您的 CPU 有加载命中存储惩罚，则此传输是其中的一个重要来源。
向上或向下舍入的性能取决于 CPU 和编译器。在缓慢的一端，MSVC 曾经使用一个函数舍入到零，这会与 FPU 控制字混淆。在快速端，您可以使用特殊的 CPU 指令来直接处理舍入。
Bresenham 的画线算法很快，因为它减少了确定在直线上画点的位置的过程，从简单的 y= m*x + b 公式减少为加法加分支（并且可以通过很好地消除分支）了解无分支整数技术）。 Brensenham 画线算法的运行切片版本甚至可以更快，因为它直接确定具有相同组件的像素的“运行”而不是迭代。