cudamalloc 比 cudamecpy 慢吗？

发布于 2024-11-19 16:30:04 字数 405 浏览 4 评论 0原文

我正在编写一个需要时间高效的代码，因此使用 Cufft 来实现此目的，但是当我尝试并行计算非常大的数据的 fft 时，它比 cpu fftw 慢，并且在找到每个时间后我发现了原因使用高精度计时代码的代码行是 cudamalloc 大约需要 0.983 秒，而其余代码行的时间约为 0.00xx 秒，这是预期的......

我已经浏览了一些相关的帖子，但根据他们

GPU 的主要延迟是由于内存传输而不是内存分配

，并且在其中一篇文章中写道：

对任何 cuda 库函数的第一次调用都会启动初始化子例程

这种延迟的实际原因是什么……或者在代码执行中出现这种延迟是不正常的吗？？？

提前致谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

雨落星ぅ辰 2024-11-26 16:30:04

您看到的大延迟（接近 1 秒）是否可能是由于驱动程序初始化造成的？对于 cudaMalloc 来说似乎相当长。另请检查您的驱动程序是否是最新的。

第一次内核启动的延迟可能是由于多种因素造成的：

驱动程序初始化
PTX 编译
上下文创建

第一个仅适用于在没有 X 的 Linux 系统上运行的情况。在这种情况下，仅在需要时才加载驱动程序并随后卸载。以 root 身份运行 nvidia-smi -pm 1 将以持久模式运行驱动程序以避免此类延迟，请查看 man nvidia-smi 了解详细信息，并记住将其添加到init 脚本，因为它不会在重新启动后持续存在。

第二个延迟是为系统中的特定设备架构编译 PTX。通过将设备架构（或架构，如果您想在不编译 PTX 的情况下支持多个架构）的二进制文件嵌入到可执行文件中，可以轻松避免这种情况。有关详细信息，请参阅《CUDA C 编程指南》（可在 NVIDIA 网站上获取）部分3.1.1.2讲JIT编译。

第三点，场景创建，这是不可避免的，但NVIDIA已经下了很大的功夫来降低成本。上下文创建涉及将可执行代码复制到设备、复制任何数据对象、设置内存系统等。