CUDA 与 CuBlas 内存管理
我注意到我可以使用使用 cudamalloc() 或 cublasalloc() 函数分配的矩阵内存块来调用 cublas 函数。尽管使用 cudamalloc() 分配的数组还有其他优点,但使用 cudamalloc() 而不是 cublasalloc() 分配的数组的矩阵传输速率和计算速度较慢。为什么会这样呢?很高兴听到一些评论。
I have noticed that I can use memory blocks for matrices either allocated using cudamalloc() or cublasalloc() function to call cublas functions. The matrix transfer rates and computational are slower for arrays allocated using cudamalloc() rather than cublasalloc(), although there are other advantages to using arrays using cudamalloc(). Why is that the case? It would be great to hear some comments.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
cublasAlloc 本质上是 cudaMalloc() 的包装器,所以应该没有区别,您的代码中还有其他变化吗?
cublasAlloc
is essentially a wrapper aroundcudaMalloc()
so there should be no difference, is there anything else that changes in your code?