我应该创建多个 OpenCL 内核以避免条件语句吗?
在 OpenCL 中,我有一个需要对复杂且真实的数据进行操作的内核。我可以放入一个条件语句来调用正确的代码行来处理这个问题,或者我可以有两个调用的内…
当我使用略多于 64kb 的常量缓存时,为什么我的内核不会失败? (OpenCL/CUDA)
我对使用常量缓存的内核进行了一些测试。如果我使用 16,000 个浮点数 (16,000 * 4KB = 64KB),那么一切都会顺利运行。如果我使用16,200,它仍然运行顺…
如何解决依赖OpenCV的GPU程序编译问题?
如何解决这个编译问题呢? 1>tmpxft_00001548_00000000-14_buildSURFDescriptorsGPU.ii 1>Compiling... 1>getMatchesGPU.cpp 1>utils.cpp 1&g…
在 CUDA C 中实现 X^i * Y 的和(i=0 到 k)
我正在寻找技巧或研究论文来帮助我计算 X^i * Y 的总和(i=0 到 k),或更明确地说,Y + X^1 * Y +...+ X^k * CUDA C 中的 Y。其中 X 是 N×N 矩阵,Y …
用于 MD5 加密的 Nvidia CUDA 或 ATI Stream?
当我看到一些我不知道的有关 ATI 的统计数据时,我正准备购买 Nvidia GTX 470。 ATI 卡上的流是否能更好地执行加密和解密所需的数学运算?…
从常规 C++ 调用 CUDA 代码代码 - 整理出外部“C”
我试图从单独编译的 C++ 文件调用 CUDA(主机)函数: sample.cpp C++ 文件: extern "C" void cuda_function(int a, int b) int main(){ //statement…
如何在 Linux 中读取 CUDA .cubin 二进制文件?
我正在尝试获取 CUDA 程序中每个内核的每个线程的寄存器数量。这将帮助我使用 CUDA 占用计算器 (http://developer.download.nvidia.com/compute/cuda/…
OpenCL/CUDA 中每种内存访问类型有多少内存延迟周期?
我浏览了编程指南和最佳实践指南,其中提到全局内存访问需要 400-600 个周期。我没有看到太多其他内存类型,如纹理缓存、常量缓存、共享内存。寄存器…
请推荐一款用于GPU编程的显卡
Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 这个问题似乎不是关于特定的编程问题、…
大型矩阵的 CUDA 矩阵乘法中断
我有以下矩阵乘法代码,使用 CUDA 3.2 和 VS 2008 实现。我在 Windows Server 2008 r2 enterprise 上运行。我正在运行 Nvidia GTX 480。以下代码可以…