gpu-shared-memory

gpu-shared-memory

文章 0 浏览 3

CUDA中2D共享内存是如何排列的

我一直使用线性共享内存(加载、存储、访问邻居),但我在 2D 中做了一个简单的测试来研究存储体冲突,结果让我感到困惑。 下一个代码将数据从一维全…

黑寡妇 2024-12-11 18:12:05 1 0

共享内存的指针运算

我不明白以下几行到底发生了什么: unsigned char *membershipChanged = (unsigned char *)sharedMemory; float *clusters = (float *)(sharedMemory …

北方的韩爷 2024-12-06 23:09:06 0 0

cuda nbody模拟-共享内存问题

基于 Nvidia GPU 计算 SDK 的示例,我为 nbody 模拟创建了两个内核。第一个不利用共享内存的内核比第二个使用共享内存的内核快约 15%。为什么共享内存…

清醇 2024-12-02 10:16:39 3 0

CUDA中本地内存比共享内存慢吗?

我只发现一个评论,本地内存比寄存器内存(每线程两个类型)慢。 共享内存应该很快,但是它比[线程的]本地内存快吗? 我想做的是一种中值过滤器,但使…

情未る 2024-12-01 20:03:40 2 0

为什么将共享内存数组填充一列可以使内核速度提高 40%?

当共享内存数组填充一列时,为什么这个矩阵转置内核更快? 我在 PyCuda/Examples/MatrixTranspose 找到了内核。 源 import pycuda.gpuarray as gpuarr…

泛泛之交 2024-11-28 23:00:10 2 0

静态与动态 CUDA 共享内存分配的性能

我有 2 个内核,它们的功能完全相同。其中一种静态分配共享内存,另一种在运行时动态分配内存。我将共享内存用作二维数组。因此,对于动态分配,我有…

忆离笙 2024-11-19 11:40:07 3 0

调试时共享内存问题

我正在尝试使用 Nsight 调试以下代码: __device__ void change(int shared[]) { if(threadIdx.x<10) shared[threadIdx.x]=threadIdx.x; } __global__…

掌心的温暖 2024-11-15 22:48:07 2 0

寄存器和共享内存取决于编译计算能力?

当我使用 nvcc -arch=sm_13 编译时,我得到: ptxas info : Used 29 registers, 28+16 bytes smem, 7200 bytes cmem[0], 8 bytes cmem[1] 当我使用 nv…

許願樹丅啲祈禱 2024-11-08 06:14:58 5 0

共享内存上的原子操作

如何在共享内存上执行原子操作? 我有类似的东西: __shared__ int a[10]; //set a if(tid<5) a[2]++; 因此 5 个线程正在递增 a。我该怎么做? 我知道…

╰ゝ天使的微笑 2024-11-03 01:07:05 5 0

CUDA:跨不同内核使用共享内存

这可能吗? 我试图在一个内核中定义一个共享内存数组,然后我需要在不同的内核中使用这些值。 我尝试声明 extern __shared__ float sharedMem[]; 外部…

神魇的王 2024-11-01 06:14:09 5 0

共享内存优化混乱

我在 CUDA 中编写了一个应用程序,它在每个块中使用 1kb 共享内存。 由于每个SM中只有16kb的共享内存,所以总共只能容纳16个块,对吗?虽然一次只能调…

下壹個目標 2024-10-31 04:03:36 6 0

CUDA:具有重叠边界的共享内存分配

有没有一种简单的方法(谷歌尚未提供...)从单个输入数组中分配每块共享内存区域,以便可以存在重叠? 简单的例子就是字符串搜索;看到我想将输入文本…

七禾 2024-10-30 18:32:31 5 0

分配共享内存

我试图通过使用常量参数来分配共享内存,但出现错误。我的内核看起来像这样: __global__ void Kernel(const int count) { __shared__ int a[count]; …

瑾夏年华 2024-10-28 21:45:23 5 0

OpenCL 本地内存有限制吗?

今天,我向内核添加了四个 __local 变量以转储中间结果。但是,只需将这四个变量添加到内核签名并添加相应的内核参数,就会将内核的所有输出呈现为“0…

似梦非梦 2024-10-21 01:36:12 8 0

创建具有块大小的共享向量?

我需要创建一个共享向量,其大小与块相同。 __global__ func() { const int size = blockDim.x; __shared__ float* Vec[size]; .. } 我收到此错误, e…

相权↑美人 2024-10-18 21:50:10 5 0
更多

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文