cuda

cuda

文章 23 浏览 77

如何在 Cuda 中获取从 2D Real 到 Complex FFT 的所有数据

我正在尝试使用 CUFFT 进行 2D 实数到复数 FFT。 我意识到我会这样做并得到 W/2+1 复数值(W 是我的 H*W 矩阵的“宽度”)。 问题是 - 如果我想在变换…

冷默言语 2024-11-05 00:05:15 0 0

使用cudaMalloc分配矩阵

我正在使用 cudaMalloc 和 cudaMemcpy 分配一个矩阵并将向量数组复制到其中,如下所示: float **pa cudaMalloc((void***)&amppa, N*sizeof(float*)) …

夏花。依旧 2024-11-04 21:16:09 0 0

使用 nsight 进行调试

我正在使用 NSight 调试我的 CUDA 代码,但我有问题: 如何为特定线程和块放置断点? 当我在内核上放置断点时,调试器始终停止在块 0 的线程 0 处。…

浅暮の光 2024-11-04 20:40:12 0 0

滞后斐波那契随机数生成器中的种子数

谁能告诉我滞后斐波那契随机数生成器中的种子数量作为典型滞后斐波那契参数的函数,我真的很感激一张图表来说明随机数生成器的工作原理…

请持续率性 2024-11-04 16:01:37 0 0

在 Visual Studio 调试器中查看数组?

我的问题与此不重复 当使用 Nsight 作为调试器时,上面提供的解决方案不起作用。 使用 Nsight 作为调试器时,如何查看内核内数组的所有元素? QuickWh…

笑红尘 2024-11-04 13:54:25 0 0

配置 CMake 以在 Windows 上设置 CUDA

我正在尝试使用 CMake 在 Windows (Visual Studio 2005) 上编译基于 CUDA 的应用程序。这是一个精简 CMake 文件的示例: cmake_minimum_required (VER…

╭ゆ眷念 2024-11-04 12:03:10 0 0

CUDA:CPU 定时器和 CUDA 定时器事件之间的区别?

使用CPU计时器和CUDA计时器事件来测量执行某些CUDA代码所需的时间有什么区别? CUDA 程序员应该使用以下哪一个? 为什么? 我所知道的: CPU计时器的…

千柳 2024-11-04 04:57:26 0 0

CUDA 块和网格大小效率

在 cuda 中处理动态大小的数据集的建议方法是什么? 是“根据问题集设置块和网格大小”的情况,还是值得将块尺寸分配为 2 的因子并有一些内核逻辑来处…

当梦初醒 2024-11-03 20:52:21 0 0

NVIDIA CUDA 4.0,使用运行时 API 页面锁定内存

NVIDIA CUDA 4.0(此处假设为 RC2)提供了一个很好的功能,即对之前通过“正常”malloc 函数分配的内存范围进行页面锁定。这可以使用驱动程序 API 函…

悲念泪 2024-11-03 18:28:21 0 0

我可以使用 CUDA 计时器事件在一个文件中分别计算两个内核时间吗?

我创建了两对开始和停止事件,希望记录两个内核的时间。但我只是得到这个: fatal error LNK1120: 1 unresolved externals CUDA 最佳实践指南,s 2.1.…

深爱不及久伴 2024-11-03 18:26:58 0 0

Qt 和 CUDA VIsual Profiler 内存传输大小错误

我准备了一个 .pro 文件,以便在 Linux 机器(64 位)中使用 Qt 和 CUDA。当我将应用程序运行到 CUDA 分析器中时,该应用程序执行了 12 次,但在显示…

肥爪爪 2024-11-03 14:11:11 0 0

帮助!使用过多内存后 CUDA 内核将不再启动

我正在编写一个需要以下内核启动的程序: dim3 blocks(16,16,16) //grid dimensions dim3 threads(32,32) //block dimensions get_gaussian_responses…

墨落成白 2024-11-03 13:08:02 0 0

pycuda.debug 实际上做了什么?

作为一个更大项目的一部分,我遇到了一个奇怪的一致错误,我无法理解它,但它是一个典型的“黑匣子”错误;当使用 cuda-gdb python -m pycuda.debug p…

红焚 2024-11-03 07:45:52 0 0

获取CUDA纹理问题

我在获取浮动纹理时遇到问题。纹理定义如下: texture&ltfloat, 2, cudaReadModeElementType&gt cornerTexture 绑定和参数设置为: cornerTexture.add…

天煞孤星 2024-11-03 05:36:55 1 0

无论规范如何,Cuda 调用都不会为每个块分配超过 8 个线程

我正在用 C++ 创建埃拉托斯特尼筛法的并行版本。问题是我的内核调用 (reduce0) 似乎只为每个块分配 8 个线程,而不是我指定的 256 个。由于即使第一个…

金橙橙 2024-11-03 02:30:22 0 0
更多

推荐作者

lorenzathorton8

文章 0 评论 0

Zero

文章 0 评论 0

萧瑟寒风

文章 0 评论 0

mylayout

文章 0 评论 0

tkewei

文章 0 评论 0

17818769742

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文