为什么绘制调用很昂贵？

发布于 2024-10-15 01:45:42 字数 208 浏览 2 评论 0原文

假设纹理、顶点和着色器数据已经在显卡上，则不需要向显卡发送太多数据。有几个字节来标识数据，大概是一个 4x4 矩阵，以及一些其他的参数。

那么所有的开销从哪里来呢？这些操作是否需要与 GPU 进行某种握手？

为什么发送包含一堆小模型（在 CPU 上计算）的单个网格通常比发送顶点 ID 和变换矩阵更快？（第二个选项看起来应该发送较少的数据，除非模型小于 4x4 矩阵）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

海之角 2024-10-22 01:45:42

首先，我假设“绘制调用”是指告诉 GPU 将一组特定顶点渲染为具有特定状态（着色器、混合状态等）的三角形的命令。

绘制调用不一定很昂贵。在旧版本的 Direct3D 中，许多调用需要上下文切换，这是昂贵的，但在新版本中并非如此。

减少绘制调用的主要原因是图形硬件转换和渲染三角形的速度比您提交三角形的速度快得多。如果每次调用都提交少量三角形，您将完全受到 CPU 的束缚，并且GPU 大部分时间都处于空闲状态。 CPU 无法足够快地为 GPU 提供数据。

使用两个三角形进行一次绘制调用的成本很低，但如果每次调用提交的数据太少，您将没有足够的 CPU 时间来向 GPU 提交尽可能多的几何图形。

进行绘制调用会产生一些实际成本，它需要设置一堆状态（要使用哪一组顶点，要使用什么着色器等等），并且状态更改在硬件方面都会产生成本（更新一堆状态）寄存器）和驱动程序端（验证和转换设置状态的调用）。

但是绘制调用的主要成本仅在每次调用提交的数据太少时才适用，因为这将导致您受到 CPU 限制，并阻止您充分利用硬件。

正如 Josh 所说，绘制调用也会导致命令缓冲区被刷新，但根据我的经验，这通常发生在调用 SwapBuffers 时，而不是提交几何图形时。视频驱动程序通常会尝试尽可能多地缓冲（有时是几帧！），以尽可能多地从 GPU 中挤出并行性。

您应该阅读 nVidia 演示文稿 Batch Batch Batch！，它相当旧，但是正好涵盖了这个主题。

回复收藏 0 原文

雨后彩虹 2024-10-22 01:45:42

Direct3D 等图形 API 将其 API 级调用转换为与设备无关的命令，并将它们在缓冲区中排队。刷新该缓冲区以执行实际工作是昂贵的 - 既因为它意味着现在正在执行实际工作，又因为它可能会导致芯片上从用户模式切换到内核模式（然后再返回），这并不是说便宜的。

在刷新缓冲区之前，只要 CPU 不发出阻塞请求（例如将数据映射回 CPU），GPU 就能够与 CPU 并行执行一些准备工作。但 GPU 不会（也不能）在需要实际绘制之前准备好一切。仅仅因为某些顶点或纹理数据位于卡上并不意味着它已正确排列，并且在设置顶点布局或绑定着色器等之前可能无法排列。大部分实际工作发生在命令刷新和绘制调用期间。

DirectX SDK 有一个有关准确分析 D3D 性能的部分，其中虽然与您的问题没有直接关系，但可以提供一些关于什么是昂贵和不昂贵以及（在某些情况下）原因的提示。

更相关的是这篇博文（以及后续帖子此处和此处），它很好地概述了 GPU 的逻辑、低级操作过程。

但是，本质上（尝试直接回答您的问题），调用费用昂贵的原因并不是因为需要传输大量数据，而是因为需要进行大量工作不仅仅是通过总线传输数据，这些数据会被推迟到命令缓冲区被刷新为止。