cuda

cuda

文章 23 浏览 78

如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题。 总而言之,我有两个数组/向量,我需要对一个数组/向量进行排序,并将更改传播到另一个数组/向量中,这样,如果我对 arr…

只是偏爱你 2024-11-29 12:16:21 2 0

全局内存中的大型常量数组

是否可以通过在 GPU 上运行具有以下特性的算法来提高性能: 有数百甚至数千个独立线程,在计算过程中不需要任何同步 每个线程具有相对较小(小于 200K…

泼猴你往哪里跑 2024-11-29 11:10:16 1 0

如何从两个数组中生成一对向量,然后使用 CUDA/Thrust 按该对的第一个元素进行排序?

好吧,这会很拗口。 我有一个指向序列化二维数组的指针,除了指针算术之外,我想从(本质上)两个数组(我计划从二维数组中取出)中创建一个成对的向…

烂人 2024-11-29 10:22:29 1 0

CUDA 中的异步 memcpy 期间的设备同步

假设我想在 CUDA 中执行异步 memcpy 主机到设备,然后立即运行内核。如何在内核中测试异步传输是否已完成?…

盛装女皇 2024-11-29 09:55:01 2 0

有效的最小 GPU 线程数

我将在 CUDA 上并行化本地搜索算法来解决一些优化问题。该问题非常难,因此实际可解决的问题规模很小。 我担心的是,计划在一个内核中运行的线程数量…

娇纵 2024-11-29 06:37:50 3 0

如何在 CUDA 中使用 CUTThread

我正在尝试运行我自己的多 GPU 示例,并且我正在遵循 NVIDIA 的示例。但是,我找不到 CUTThread 的定义位置,然后编译器说: error: ‘CUTThread’ wa…

墨洒年华 2024-11-29 04:59:07 0 0

opencl 命令队列是如何工作的,我能要求它做什么

我正在研究一种算法,它可以多次执行几乎相同的操作。由于该操作由一些线性代数(BLAS)组成,我想我会尝试使用 GPU 来完成此操作。 我已经编写了内核…

白龙吟 2024-11-29 02:55:07 0 0

如何在Windows上部署CUDA程序?

我有一个链接到 cuda、cublas 和 cudart 的程序。 有没有一种方法可以在不强制用户安装最新的 nvidia 驱动程序的情况下部署它? 当我将提到的 dll 复…

野味少女 2024-11-29 01:23:52 0 0

为什么将共享内存数组填充一列可以使内核速度提高 40%?

当共享内存数组填充一列时,为什么这个矩阵转置内核更快? 我在 PyCuda/Examples/MatrixTranspose 找到了内核。 源 import pycuda.gpuarray as gpuarr…

泛泛之交 2024-11-28 23:00:10 2 0

cuda-内核优化

我创建了一个简单的粒子系统。我有一台计算能力为 2.1 的设备。我可以改变什么来优化内核? 我假设变量 tPos 和 tVel 存储在寄存器中。 __global__ vo…

波浪屿的海角声 2024-11-28 20:50:19 2 0

在 Windows 上将 cuda 库与 gcc 链接

简短版本: 我尝试编译 MAGMA 并收到有关缺少符号的抱怨: testing_cgemm.o:testing_cgemm.cpp:(.text+0x2e7): undefined reference to `cudaMalloc' …

划一舟意中人 2024-11-28 13:45:25 1 0

NVidia CUDA:二级缓存和多个内核调用

我想知道 L2 缓存是否在多个内核调用之间被释放。例如,我有一个内核对数据进行一些预处理,第二个内核则使用它。如果数据大小小于 768 KB 是否可以获…

情深已缘浅 2024-11-28 12:08:09 1 0

CUDA 4.0 在内核中使用指针 - 错误

我的问题如下: 我希望以两种方式使用内核。 我使用一个已使用 cudaMemcpy 复制的数组 d_array,即通过 cutilSafeCall(cudaMemcpy(d_array, array, 10…

趁微风不噪 2024-11-28 11:49:43 1 0

如何验证双打是否已启用并在 cuda 内工作?

我想知道我的 CUDA 设备是否启用了双精度,因为它是具有 CUDA 运行时 4.0(SDK 和工具包、最新驱动程序)的计算能力 2.0 设备。 如何验证双精度是否已…

握住你手 2024-11-28 08:33:20 0 0

在 __device/global__ CUDA 内核中动态分配内存

根据 CUDA 编程指南,第 122 页,只要我们使用计算架构 2.x,就可以在 device/global 函数内动态分配内存。 我的问题是,当我尝试执行此操作时,我收…

情丝乱 2024-11-28 08:28:35 0 0
更多

推荐作者

Gabu-gabumon

文章 0 评论 0

qq_CgiN62

文章 0 评论 0

荔枝明

文章 0 评论 0

¤→小豸慧

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文