为什么带有cuda10.1的Pytorch 1.7无法兼容Nvidia A100 Ampere架构(根据PTX兼容性原则)
根据 Nvidia 官方文档,如果 CUDA 应用程序构建为包括 PTX,因为 PTX 是向前兼容的,这意味着支持 PTX 在计算能力高于生成该 PTX 时假定的计算能力的…
我应该研究 PTX 来优化我的内核吗?如果是这样,怎么办?
您是否建议阅读内核的 PTX 代码以进一步优化内核? 一个例子:我读到,可以从 PTX 代码中找出自动循环展开是否有效。如果不是这种情况,则必须在内核…
如何获取要执行的 PTX 文件
我知道如何从 .cu 生成 .ptx 文件以及如何从 .ptx 生成 .cubin 文件。 但我不知道如何获得最终的可执行文件。 更具体地说,我有一个 sample.cu 文件,…
我可以将特定数据预取到 CUDA 内核中的特定缓存级别吗?
据我所知,Fermi GPU 支持预取 L1 或 L2 缓存。然而,在CUDA参考手册中我找不到任何相关内容。 CUDA 允许我的内核代码将特定数据预取到特定级别的缓存…
- 共 1 页
- 1