内核默默地无法执行

发布于 2024-12-04 11:16:59 字数 729 浏览 4 评论 0 原文

我正在尝试在 OpenCL 中编写 MergeSort（我知道，BitonicSort 更快，但我想比较它们），目前我遇到了一个奇怪的问题：

如果我将全局大小设置为 1 << 24 和本地大小为 512，内核无法执行，下一个排队的内核也无法执行。但是，在将内核排队或等待队列完成时，我都没有收到任何类型的错误。没什么，只是内核没有执行。 ComputeProfiler 也显示了这一点 - 没有内核。然而，对于全局大小 1 << 23 该算法运行良好。对于本地大小 256，最小失败全局大小为 1 << 23 。

为什么会发生这种情况？我认为至少可能有 65535 个工作组（根据 NVidia 编程指南），四舍五入到最接近的 2 的幂，即 32768 == 1 << 15，本地大小512 == 1 << 9 这意味着具有全局大小 1 << 24 应该还可以。此外，我可以执行具有此全局和本地大小的另一个内核。

最重要的是，没有错误，我无法检测到这已经发生。也许我必须采取一些解决方法（在大集合上手动循环工作组），但我想了解这个问题。

感谢您的任何建议

PS：我在驱动程序为 260.19.26 的 Linux 计算机上使用 NVidia GTX 580。

原文