gpu-shared-memory

gpu-shared-memory

文章 0 浏览 4

CUDA 共享数组未获取值?

我正在尝试实现简单的并行缩减。我正在使用 CUDA SDK 中的代码。但不知何故,我的内核存在问题,因为共享数组没有获取全局数组及其全零的值。 extern …

友谊不毕业 2025-01-05 05:54:06 2 0

入口函数使用太多共享数据(0x8020 字节 + 0x10 字节系统,最大 0x4000) - CUDA 错误

我使用的是 Tesla C2050,它的计算能力为 2.0,共享内存为 48KB。但是,当我尝试使用此共享内存时,nvcc 编译器给出以下错误 Entry function '_Z4SAT3…

老街孤人 2024-12-29 11:30:09 2 0

如何正确将从全局内存读取的内容合并到具有 Short 或 char 类型元素的共享内存中(假设每个元素有一个线程)?

我对 CUDA 中合并全局内存负载有疑问。目前我需要能够在具有计算能力 CUDA 1.1 或 1.3 的 CUDA 设备上执行。 我正在编写一个 CUDA 内核函数,它将一个…

情深如许 2024-12-28 12:52:58 2 0

CUDA如何在运行时在内核中的共享内存中创建数组?

我有大量线程运行的任务,每个线程都执行一个小的矩阵乘法。所有小矩阵都已加载到全局内存中。我希望通过让每个线程将其小矩阵加载到共享内存中,然后…

稀香 2024-12-22 13:48:15 1 0

Cuda-memcheck 未报告越界共享内存访问

我正在使用共享内存运行以下代码: __global__ void computeAddShared(int *in , int *out, int sizeInput){ //not made parameters gidata and godat…

傲性难收 2024-12-22 04:41:32 2 0

将整个全局内存缓冲区多次复制到共享内存缓冲区

我在全局内存中有一个缓冲区,我想将其复制到每个块的共享内存中,以加快只读访问速度。每个块中的每个线程将同时在不同位置使用整个缓冲区。 如何做…

拥醉 2024-12-14 12:50:22 1 0

CUDA中2D共享内存是如何排列的

我一直使用线性共享内存(加载、存储、访问邻居),但我在 2D 中做了一个简单的测试来研究存储体冲突,结果让我感到困惑。 下一个代码将数据从一维全…

黑寡妇 2024-12-11 18:12:05 2 0

共享内存的指针运算

我不明白以下几行到底发生了什么: unsigned char *membershipChanged = (unsigned char *)sharedMemory; float *clusters = (float *)(sharedMemory …

北方的韩爷 2024-12-06 23:09:06 3 0

cuda nbody模拟-共享内存问题

基于 Nvidia GPU 计算 SDK 的示例,我为 nbody 模拟创建了两个内核。第一个不利用共享内存的内核比第二个使用共享内存的内核快约 15%。为什么共享内存…

清醇 2024-12-02 10:16:39 6 0

CUDA中本地内存比共享内存慢吗?

我只发现一个评论,本地内存比寄存器内存(每线程两个类型)慢。 共享内存应该很快,但是它比[线程的]本地内存快吗? 我想做的是一种中值过滤器,但使…

情未る 2024-12-01 20:03:40 5 0

为什么将共享内存数组填充一列可以使内核速度提高 40%?

当共享内存数组填充一列时,为什么这个矩阵转置内核更快? 我在 PyCuda/Examples/MatrixTranspose 找到了内核。 源 import pycuda.gpuarray as gpuarr…

泛泛之交 2024-11-28 23:00:10 4 0

静态与动态 CUDA 共享内存分配的性能

我有 2 个内核,它们的功能完全相同。其中一种静态分配共享内存,另一种在运行时动态分配内存。我将共享内存用作二维数组。因此,对于动态分配,我有…

忆离笙 2024-11-19 11:40:07 7 0

调试时共享内存问题

我正在尝试使用 Nsight 调试以下代码: __device__ void change(int shared[]) { if(threadIdx.x<10) shared[threadIdx.x]=threadIdx.x; } __global__…

掌心的温暖 2024-11-15 22:48:07 6 0

寄存器和共享内存取决于编译计算能力?

当我使用 nvcc -arch=sm_13 编译时,我得到: ptxas info : Used 29 registers, 28+16 bytes smem, 7200 bytes cmem[0], 8 bytes cmem[1] 当我使用 nv…

許願樹丅啲祈禱 2024-11-08 06:14:58 7 0

共享内存上的原子操作

如何在共享内存上执行原子操作? 我有类似的东西: __shared__ int a[10]; //set a if(tid<5) a[2]++; 因此 5 个线程正在递增 a。我该怎么做? 我知道…

╰ゝ天使的微笑 2024-11-03 01:07:05 7 0
更多

推荐作者

Promise

文章 0 评论 0

qq_lbRlsh

文章 0 评论 0

待"谢繁草

文章 0 评论 0

yy2010hell

文章 0 评论 0

漫无边际

文章 0 评论 0

傲娇萝莉攻

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文