cuda10+ 中 uint2 和 uint64_t 之间是否存在性能/存储差异?

发布于 2025-01-12 12:49:55 字数 199 浏览 0 评论 0原文

我正在尝试优化 A100 GPU(安培代)的一段代码,现在我们使用 uint64_t,但我看到在一些 cuda 代码中使用了 uint2 数据类型。 uint2 在寄存器使用方面有优势吗?我知道 64 位寄存器的数量有限,uint2 是否将 x,y 整数拆分到 32 位寄存器中以获得更好的占用?我找不到有关这些数据类型的寄存器存储的任何具体信息,因此任何指向其文档的链接将不胜感激。

I'm trying to optimize a piece of code for A100 GPUs (ampere gen), right now we use uint64_t but I am seeing uint2 datatypes being used instead in some cuda code. Does the uint2 offer advantages for register usage? I know there are a limited number of 64-bit registers, does uint2 split the x,y ints across 32-bit registers for better occupancy? I couldn't find any specific information about register storage with these datatypes so any links to documentation for it would be appreciated.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

哆啦不做梦 2025-01-19 12:49:55

uint2 在寄存器使用方面有优势吗?

不。

我知道 64 位寄存器的数量有限

。极其有限,即零。据我所知,任何 CUDA 兼容 GPU 中都没有 64 位寄存器。当编译器遇到 64 位类型时,它将由两个相邻的 32 位寄存器组合而成。

uint2 是否将 x,y 整数拆分到 32 位寄存器中以获得更好的占用?

不会。所有 CUDA 内置向量类型的存在都是为了内存带宽优化(PTX 中有向量加载/存储指令)以及与纹理/表面硬件的兼容性,纹理/表面硬件可以对其中一些类型进行过滤,这可以更好地表现。

Does the uint2 offer advantages for register usage?

No.

I know there are a limited number of 64-bit registers

Indeed. Extremely limited, i.e. zero. There are no 64 bit registers in any CUDA compatible GPU I am aware of. When the compiler encounters a 64-bit type, it composites it from two adjacent 32-bit registers.

does uint2 split the x,y ints across 32-bit registers for better occupancy?

No. All the CUDA built-in vector types exist for memory bandwidth optimization (there are vector load/store instructions in PTX) and for compatibility with the texture/surface hardware which can do filtering on some of those types, which can be better for performance.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文