第 11 页 - cuda - 文江博客

投稿关注

cuda

文章 23 浏览 78

如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题。总而言之，我有两个数组/向量，我需要对一个数组/向量进行排序，并将更改传播到另一个数组/向量中，这样，如果我对 arr…

只是偏爱你 2024-11-29 12:16:21 2 0

全局内存中的大型常量数组

是否可以通过在 GPU 上运行具有以下特性的算法来提高性能：有数百甚至数千个独立线程，在计算过程中不需要任何同步每个线程具有相对较小（小于 200K…

泼猴你往哪里跑 2024-11-29 11:10:16 1 0

如何从两个数组中生成一对向量，然后使用 CUDA/Thrust 按该对的第一个元素进行排序？

好吧，这会很拗口。我有一个指向序列化二维数组的指针，除了指针算术之外，我想从（本质上）两个数组（我计划从二维数组中取出）中创建一个成对的向…

烂人 2024-11-29 10:22:29 1 0

CUDA 中的异步 memcpy 期间的设备同步

假设我想在 CUDA 中执行异步 memcpy 主机到设备，然后立即运行内核。如何在内核中测试异步传输是否已完成？…

盛装女皇 2024-11-29 09:55:01 2 0

有效的最小 GPU 线程数

我将在 CUDA 上并行化本地搜索算法来解决一些优化问题。该问题非常难，因此实际可解决的问题规模很小。我担心的是，计划在一个内核中运行的线程数量…

娇纵 2024-11-29 06:37:50 3 0

如何在 CUDA 中使用 CUTThread

我正在尝试运行我自己的多 GPU 示例，并且我正在遵循 NVIDIA 的示例。但是，我找不到 CUTThread 的定义位置，然后编译器说： error: ‘CUTThread’ wa…

墨洒年华 2024-11-29 04:59:07 0 0

opencl 命令队列是如何工作的，我能要求它做什么

我正在研究一种算法，它可以多次执行几乎相同的操作。由于该操作由一些线性代数（BLAS）组成，我想我会尝试使用 GPU 来完成此操作。我已经编写了内核…

白龙吟 2024-11-29 02:55:07 0 0

如何在Windows上部署CUDA程序？

我有一个链接到 cuda、cublas 和 cudart 的程序。有没有一种方法可以在不强制用户安装最新的 nvidia 驱动程序的情况下部署它？当我将提到的 dll 复…

野味少女 2024-11-29 01:23:52 0 0

为什么将共享内存数组填充一列可以使内核速度提高 40%？

当共享内存数组填充一列时，为什么这个矩阵转置内核更快？我在 PyCuda/Examples/MatrixTranspose 找到了内核。源 import pycuda.gpuarray as gpuarr…

泛泛之交 2024-11-28 23:00:10 2 0

cuda-内核优化

我创建了一个简单的粒子系统。我有一台计算能力为 2.1 的设备。我可以改变什么来优化内核？我假设变量 tPos 和 tVel 存储在寄存器中。 __global__ vo…

波浪屿的海角声 2024-11-28 20:50:19 2 0

在 Windows 上将 cuda 库与 gcc 链接

简短版本：我尝试编译 MAGMA 并收到有关缺少符号的抱怨： testing_cgemm.o:testing_cgemm.cpp:(.text+0x2e7): undefined reference to `cudaMalloc' …

划一舟意中人 2024-11-28 13:45:25 1 0

NVidia CUDA：二级缓存和多个内核调用

我想知道 L2 缓存是否在多个内核调用之间被释放。例如，我有一个内核对数据进行一些预处理，第二个内核则使用它。如果数据大小小于 768 KB 是否可以获…

情深已缘浅 2024-11-28 12:08:09 1 0

CUDA 4.0 在内核中使用指针 - 错误

我的问题如下：我希望以两种方式使用内核。我使用一个已使用 cudaMemcpy 复制的数组 d_array，即通过 cutilSafeCall(cudaMemcpy(d_array, array, 10…

趁微风不噪 2024-11-28 11:49:43 1 0

如何验证双打是否已启用并在 cuda 内工作？

我想知道我的 CUDA 设备是否启用了双精度，因为它是具有 CUDA 运行时 4.0（SDK 和工具包、最新驱动程序）的计算能力 2.0 设备。如何验证双精度是否已…

握住你手 2024-11-28 08:33:20 0 0

在 device/global CUDA 内核中动态分配内存

根据 CUDA 编程指南，第 122 页，只要我们使用计算架构 2.x，就可以在 device/global 函数内动态分配内存。我的问题是，当我尝试执行此操作时，我收…

情丝乱 2024-11-28 08:28:35 0 0

Gabu-gabumon

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

荔枝明

文章 0 评论 0

关注

赏烟花じ飞满天

文章 0 评论 0

关注

独守阴晴ぅ圆缺

文章 0 评论 0

关注

¤→小豸慧

文章 0 评论 0

友情链接

文江博客

cuda

如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

全局内存中的大型常量数组

如何从两个数组中生成一对向量，然后使用 CUDA/Thrust 按该对的第一个元素进行排序？

CUDA 中的异步 memcpy 期间的设备同步

有效的最小 GPU 线程数

如何在 CUDA 中使用 CUTThread

opencl 命令队列是如何工作的，我能要求它做什么

如何在Windows上部署CUDA程序？

为什么将共享内存数组填充一列可以使内核速度提高 40%？

cuda-内核优化

在 Windows 上将 cuda 库与 gcc 链接

NVidia CUDA：二级缓存和多个内核调用

CUDA 4.0 在内核中使用指针 - 错误

如何验证双打是否已启用并在 cuda 内工作？

在 device/global CUDA 内核中动态分配内存

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接