当我使用略多于 64kb 的常量缓存时，为什么我的内核不会失败？（OpenCL/CUDA）

发布于 2024-10-01 04:49:54 字数 224 浏览 6 评论 0原文

我对使用常量缓存的内核进行了一些测试。如果我使用 16,000 个浮点数 (16,000 * 4KB = 64KB)，那么一切都会顺利运行。如果我使用16,200，它仍然运行顺利。如果我使用 16,400 个浮点数，我的结果会出现错误（不是来自 OpenCL）。难道只是技术上有 64.x KB 的常量缓存可用吗？如果我正好使用 16,000 个浮点数，我是否应该相信我的代码？通常，当您使用的东西达到规定的限制时，我预计代码会中断。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

海之角 2024-10-08 04:49:54

您可以并且应该使用 OpenCL clGetDeviceInfo API 并使用参数 CL_DEVICE_MAX_CONSTANT_BUFFER_SIZE 来查询此信息。 OpenCL 1.1 规范规定，符合要求的实现必须提供至少 64K 字节，这可能就是您的设备正在实现的。

如果超过此限制，则 OpenCL 应该给出错误或透明地将常量数组移至全局内存数组中。

如果它没有返回错误，但给出了不好的结果，那么这就是 OpenCL 实现中的错误。不足为奇，他们都还不是很成熟。您绝对应该向供应商报告该错误。（我认为是 NVidia，因为您引用了 CUDA）（当然，在确保您已安装最新版本之后。）

回复收藏 0 原文

天涯离梦残月幽梦 2024-10-08 04:49:54

我什至没有看一眼 GPU 规格来了解哪些机器有或没有 64KB 恒定内存的硬限制；我假设您已经确定这实际上是您卡上的限额。

我将添加观察结果，但一般来说，GPU 及其 CUDA/OpenCL/任何运行时在捕获或标记错误方面并不是非常积极，并且如果使用无效参数，当然也不会努力失败。虽然我从未见过它明确说明，但我的理解是，这部分是为了避免开销，但主要是为了尽可能宽容；在游戏中，最好让怪物的手臂在几帧中看起来很有趣，而不是因为有人进行了一次越界访问而导致整个游戏死亡。

对于那些进行 GPGPU 编程的人来说，这很尴尬——您需要确保所有参数和内存使用都有效，如果不是，结果可能会很奇怪：有时它会起作用，但通常不会。但事情就是这样。如果您超出了给定的内存限制，我当然不会指望事情会可靠地失败，并且会使用一些明显且有用的方法。

回复收藏 0 原文

~没有更多了~