opencl 命令队列是如何工作的,我能要求它做什么
我正在研究一种算法,它可以多次执行几乎相同的操作。由于该操作由一些线性代数(BLAS)组成,我想我会尝试使用 GPU 来完成此操作。 我已经编写了内核…
NVidia CUDA:二级缓存和多个内核调用
我想知道 L2 缓存是否在多个内核调用之间被释放。例如,我有一个内核对数据进行一些预处理,第二个内核则使用它。如果数据大小小于 768 KB 是否可以获…
有没有办法在 Windows 7 系统中独立执行任务并使用异构多 GPU?
我的台式机上可以有两个混合芯片组/一代 AMD GPU吗? 6950 和 4870,并专用一个 gpu (4870) 仅用于 opencl/gpgpu 目的,消除操作系统考虑的视频输出或…
CUDA - 复制到对象数组中的数组
我有一个 CUDA 应用程序,正在处理一组对象;每个对象都有一个指向 std::pair 数组的指针。我正在尝试 cudaMemcpy 对象数组,然后 cudaMemcpy 对每个…
CUDA似乎达到了极限,但那是什么极限呢?
我有一个 CUDA 程序,似乎达到了某些资源的某种限制,但我无法弄清楚该资源是什么。这是内核函数: __global__ void DoCheck(float2* points, int* se…
Cuda 中的 CImg 库
我正在 VS2008、Win 7 上的 CUDA C 中编写代码。我得到了一个要显示为图像的浮点数矩阵..我将其保存为 .bin 文件并将其加载到一个单独的 .cpp 文件中…
cudamalloc 比 cudamecpy 慢吗?
我正在编写一个需要时间高效的代码,因此使用 Cufft 来实现此目的,但是当我尝试并行计算非常大的数据的 fft 时,它比 cpu fftw 慢,并且在找到每个时…