使用 cudaMemcpy 将结构数据从主机复制到 CUDA 上的设备
我在 CUDA 架构中将结构数据从主机复制到设备时遇到问题。 以下是代码片段。 struct point { double x,y } int main() { point * a = (point*)malloc(…
为大量浮点数生成快速校验和,而不使用任何库?
在 C 语言中(更具体地说,C for CUDA),计算大量浮点数(比如两万个值)的校验和的最佳方法是什么,这很容易用 printf 打印,而不使用任何库? 我可…
使用 CUDA/NVCC 传递给函数时动态结构成员损坏
我正在尝试 CUDA,遇到了一个非常奇怪的错误。我有以下文件(tldr,跳过它们): main.cpp #include "main.h" #include "list.hpp" void print_gr…
CUDA 中的稀疏矩阵向量乘法
我正在尝试在 GPU 上实现矩阵向量乘法(使用 CUDA)。 在我的 C++ 代码 (CPU) 中,我将矩阵加载为密集矩阵,然后使用 CUDA 执行矩阵向量乘法。我还使…
编译 Cuda 时出错 - 预期的主要表达式
这个程序看起来不错,但我仍然收到错误,有什么建议吗? 程序: #include "dot.h" #include <cuda.h> #include <cuda_runtime.h> #include &l…
关于CUDA内核内存分配的问题
嘿, 我的主机上有一个大小为 SIZE*sizeof(double) 的数组。我分配一个主机数组大小的设备指针,并将该数组复制到设备。现在我将此设备数组 dev_point…
如果一次又一次地使用相同的输入运行相同的内核,是否会进行任何优化?
如果我使用相同的输入多次运行相同的内核, #define N 2000 for(int i = 0 i < 2000 i++) { mykernel<<<1,120>>>(...) } 会发生什么?…
MATLAB与Mex 文件:根据输入参数大小自动优化 CUDA 代码
嘿, 我目前正在 matlab 中开发一个 Mex 文件,包括 CUDA 计算。我想知道是否有一种好方法可以针对用户的任意输入参数“自动”优化程序。例如,当输入…
不支持 CUDA 外部调用
我正在开发一个在 Fermi 卡上运行的 CUDA 4.0 应用程序。根据规范,Fermi 具有计算能力 2.0,因此应该支持非内联函数调用。 我使用 nvcc 4.0 在不同的…
如何使用 CUDA 功能阻止 Matlab 在(错误的)mex 文件执行时崩溃
我目前正在开发一个具有 CUDA 功能的 mex 文件,以便在 MATLAB 中使用。当我做错事时(例如错误的指针或类似的事情),MATLAB 总是崩溃(Windows 提示…
Python GPU 编程
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …