CUDA 编程指南 5.0 中文版 PDF 文档

发布于 2025-01-05 23:05:33 字数 6318 浏览 1 评论 0

CUDA 一种通用并行计算架构，2006 年 11 月，英伟达推出了 CUDA ，一种基于新的并行编程模型和指令集架构的通用计算架构，CUDA 能够利用英伟达 GPU 的并行计算引擎比 CPU 更高效的解决许多复杂计算任务。

CUDA 包含一个让开发者能够使用 C 作为高级编程语言的软件环境。如图 1.4 所示，其它的语言、应用编程接口（API）和基于编译制导的方式也被支持，如 FORTRAN、Direct Compute 和 OpenACC。

目录
第一章导论
1.1 从图形处理到通用并行计算
1.2 CUDATM：一种通用并行计算架构
1.3 一种可扩展的编程模型
1.4 文档结构
第二章编程模型
2.1 内核
2.2 线程层次
2.3 存储器层次
2.4 异构编程
2.5 计算能力
第三章编程接口
3.1 用 nvcc 编译
3.1.1 编译流程
3.1.1.1 离线编译
3.1.1.2 即时编译
3.1.2 二进制兼容性
3.1.3 PTX 兼容性
3.1.4 应用兼容性
3.1.5 C/C++兼容性
3.1.6 64 位兼容性
3.2 CUDA C 运行时
3.2.1 初始化
3.2.2 设备存储器
3.2.3 共享存储器
3.2.4 分页锁定主机存储器
3.2.4.1 可分享存储器(portable memory)
3.2.4.2 写结合存储器
3.2.4.3 被映射存储器
3.2.5 异步并发执行
3.2.5.1 主机和设备间异步执行
3.2.5.2 数据传输和内核执行重叠
3.2.5.3 并发内核执行
3.2.5.4 并发数据传输
3.2.5.5 流
3.2.5.6 事件
3.2.5.7 同步调用
3.2.6 多设备系统
3.2.6.1 枚举设备
3.2.6.2 设备指定
3.2.6.3 流和事件行为
3.2.6.4 p2p 存储器访问
3.2.6.5 p2p 存储器复制
3.2.6.6 统一虚拟地址空间
3.2.6.7 错误检查
3.2.7 调用栈
3.2.8 纹理和表面存储器
3.2.8.1 纹理存储器
3.2.8.2 表面存储器(surface)
3.2.8.3 CUDA 数组
3.2.8.4 读写一致性
3.2.9 图形学互操作性
3.2.9.1 OpenGL 互操作性
3.2.9.2 Direct3D 互操作性
3.2.9.3 SLI（速力）互操作性
3.3 版本和兼容性
3.4 计算模式
3.5 模式切换
3.6 Windows 上的 Tesla 计算集群模式
第四章硬件实现
4.1 SIMT 架构
4.2 硬件多线程
第五章性能指南
5.1 总体性能优化策略
5.2 最大化利用率
5.2.1 应用层次
5.2.2 设备层次
5.2.3 多处理器层次
5.3 最大化存储器吞吐量
5.3.1 主机和设备的数据传输
5.3.2 设备存储器访问
5.3.2.1 全局存储器
5.3.2.2 本地存储器
5.3.2.3 共享存储器
5.3.2.4 常量存储器
5.3.2.5 纹理和表面存储器
5.4 最大化指令吞吐量
5.4.1 算术指令
5.4.2 控制流指令
5.4.3 同步指令
附录 A 支持 CUDA 的 GPU
附录 B C 语言扩展
B.1 函数类型限定符
B.1.1 __device__
B.1.2 __global__
B.1.3 __host__
B.1.4 _noinline_ 和 __forceinline__
B.2 变量类型限定符
B.2.1 __device__
B.2.2 __constant__
B.2.3 __shared__
B.2.4 __restrict__
B.3 内置变量类型
B.3.1 char1、uchar1、char2、uchar2、char3、uchar3、char4、uchar4、short1、ushort1、short2、ushort2、short3、ushort3、short4、ushort4、int1、uint1、int2、uint2、int3、uint3、int4、uint4、long1、ulong1、long2、ulong2、long3、ulong3、long4、ulong4、float1、float2、float3、float4、double2
B.3.2 dim3 类型
B.4 内置变量
B.4.1 gridDim
B.4.2 blockIdx
B.4.3 blockDim
B.4.4 threadIdx
B.4.5 warpSize
B.5 存储器栅栏函数
B.6 同步函数
B.7 数学函数
B.8 纹理函数
B.8.1 纹理对象函数
B.8.1.1 tex1Dfetch()
B.8.1.2 tex1D()
B.8.1.3 tex2D()
B.8.1.4 tex3D()
B.8.1.5 tex1DLayered()
B.8.1.6 tex2DLayered()
B.8.1.7 texCubemap()
B.8.1.8 texCubemapLayered()
B.8.1.9 tex2Dgather()
B.8.2 纹理参考函数
B.8.2.1 tex1Dfetch()
B.8.2.2 tex1D()
B.8.2.3 tex2D()
B.8.2.4 tex3D()
B.8.2.5 tex1DLayered()
B.8.2.6 tex2DLayered()
B.8.2.7 texCubemap()
B.8.2.8 texCubemapLayered()
B.8.2.9 tex2Dgather()
B.9 表面函数(surface)
B.9.1 表面对象函数
B.9.1.1 surf1Dread()
B.9.1.2 surf1Dwrite()
B.9.1.3 surf2Dread()
B.9.1.4 surf2Dwrite()
B.9.1.5 surf3Dread()
B.9.1.6 surf3Dwrite()
B.9.1.7 surf1DLayeredread()
B.9.1.8 surf1DLayeredwrite()
B.9.1.9 surf2DLayeredread()
B.9.1.10 surf2DLayeredwrite()
B.9.1.11 surfCubemapread()
B.9.1.12 surfCubemapwrite()
B.9.1.13 surfCubemapLayeredread()
B.9.1.14 surfCubemapLayeredwrite()
B.9.2 表面引用 API
B.9.2.1 surf1Dread()
B.9.2.2 surf1Dwrite()
B.9.2.3 surf2Dread()
B.9.2.4 surf2Dwrite()
B.9.2.5 surf3Dread()
B.9.2.6 surf3Dwrite()
B.9.2.7 surf1DLayeredread()
B.9.2.8 surf1DLayeredwrite()
B.9.2.9 surf2DLayeredread()
B.9.2.10 surf2DLayeredwrite()
B.9.2.11 surfCubemapread()
B.9.2.12 surfCubemapwrite()
B.9.2.13 surfCubemapLayeredread()
B.9.2.14 surfCubemapLayeredwrite()
B.10 时间函数
B.11 原子函数
B.11.1 数学函数
B.11.1.1 atomicAdd()
B.11.1.2 atomicSub()
B.11.1.3 atomicExch()
B.11.1.4 atomicMin()
B.11.1.5 atomicMax()
B.11.1.6 atomicInc()
B.11.1.7 atomicDec()
B.11.1.8 atomicCAS()
B.11.2 位逻辑函数
B.11.2.1 atomicAnd()
B.11.2.2 atomicOr()
B.11.2.3 atomicXor()
B.12 束表决（warp vote）函数
B.13 束洗牌函数
B.13.1 概览
B.13.2 在束内广播一个值
B.13.3 计算 8 个线程的前缀和
B.13.4 束内求和
B.14 取样计数器函数
B.15 断言
B.16 格式化输出
B.16.1 格式化符号
B.16.2 限制
B.16.3 相关的主机端 API
B.16.4 例程
B.17 动态全局存储器分配
B.17.1 堆存储器分配
B.17.2 与设备存储器 API 的互操作
B.17.3 例程
B.17.3.1 每个线程的分配
B.17.3.2 每个线程块的分配
B.17.3.3 在内核启动之间持久的分配
B.18 执行配置
B.19 启动绑定
B.20 #pragma unroll
B.21 SIMD 视频指令
附录 C 数学函数
C.1 标准函数
C.1.1 单精度浮点函数
C.1.2 双精度浮点函数
C.2 内置函数
C.2.1 单精度浮点函数
C.2.2 双精度浮点函数
附录 D C++语言支持
D.1 代码例子
D.1.1 数据类
D.1.2 派生类
D.1.3 类模板
D.1.4 函数模板
D.1.5 函子类
D.2 限制
D.2.1 预处理符号
D.2.2 限定符
D.2.2.1 设备存储器限定符
D.2.2.2 Volatile 限定符
D.2.3 指针
D.2.4 运算符
D.2.4.1 赋值运算符
D.2.4.2 地址运算符
D.2.5 函数
D.2.5.1 编译器生成的函数
D.2.5.2 函数参数
D.2.5.3 函数内静态变量
D.2.5.4 函数指针
D.2.5.5 函数递归
D.2.6 类
D.2.6.1 数据成员
D.2.6.2 函数成员
D.2.6.3 虚函数
D.2.6.4 虚基类
D.2.6.5 Windows 相关
D.2.7 模板
附录 E 纹理获取
E.1 最近点取样
E.2 线性滤波
E.3 查找表
附录 F 计算能力
F.1 特性和技术规范
F.2 浮点标准
F.3 计算能力 1.x
F.3.1 架构
F.3.2 全局存储器
F.3.2.1 计算能力 1.0 和 1.1 的设备
F.3.2.2 计算能力 1.2 和 1.3 的设备
F.3.3 共享存储器
F.3.3.1 32 位步长访问
F.3.3.2 32 位广播访问
F.3.3.3 8 位和 16 位访问
F.3.3.4 大于 32 位访问
F.4 计算能力 2.x
F.4.1 架构
F.4.2 全局存储器
F.4.3 共享存储器
F.4.3.1 32 位步长访问
F.4.3.2 大于 32 位访问
F.4.4 常量存储器
F.5 计算能力 3.x
F.5.1 架构
F.5.2 全局存储器访问
F.5.3 共享存储器
F.5.3.1 64 位模式
F.5.3.2 32 位模式
附录 G 驱动 API
G.1 上下文
G.2 模块
G.3 内核执行
G.4 运行时 API 和驱动 API 的互操作性
G.5 注意