gpu-shared-memory

gpu-shared-memory

文章 0 浏览 5

培训stylegan的问题 - 被困在设置pytorch插件上“ upfirdn2d_plugin”

我在训练stylegan3上遇到了一个问题,该终端固定在“设置pytorch插件” upfirdn2d_plugin“ ...”中。我已经尝试了所有发现的方法,例如重新安装Conda…

三生池水覆流年 2025-02-08 19:10:25 3 0

负载和存储操作是否在共享内存原子中?

我试图弄清楚原始类型上的负载和存储操作是否是原子,当我们从CUDA中的共享存储器加载/存储时。 一方面,似乎将任何负载/存储都编译到PTX指令 ld.weak…

故笙诉离歌 2025-02-06 08:48:38 3 0

cuda c++如何编程基于共享内存带宽?

我正在寻找一种基准共享内存和L1/L2缓存的方法。但是,我发现的基准结果取决于来源大不相同。 在本文中,解剖NVIDIA vidia volta volta gpu gpu架构,…

故事↓在人 2025-01-24 14:57:18 5 0

CUDA 共享数组未获取值?

我正在尝试实现简单的并行缩减。我正在使用 CUDA SDK 中的代码。但不知何故,我的内核存在问题,因为共享数组没有获取全局数组及其全零的值。 extern …

友谊不毕业 2025-01-05 05:54:06 5 0

入口函数使用太多共享数据(0x8020 字节 + 0x10 字节系统,最大 0x4000) - CUDA 错误

我使用的是 Tesla C2050,它的计算能力为 2.0,共享内存为 48KB。但是,当我尝试使用此共享内存时,nvcc 编译器给出以下错误 Entry function '_Z4SAT3…

老街孤人 2024-12-29 11:30:09 7 0

如何正确将从全局内存读取的内容合并到具有 Short 或 char 类型元素的共享内存中(假设每个元素有一个线程)?

我对 CUDA 中合并全局内存负载有疑问。目前我需要能够在具有计算能力 CUDA 1.1 或 1.3 的 CUDA 设备上执行。 我正在编写一个 CUDA 内核函数,它将一个…

情深如许 2024-12-28 12:52:58 6 0

CUDA如何在运行时在内核中的共享内存中创建数组?

我有大量线程运行的任务,每个线程都执行一个小的矩阵乘法。所有小矩阵都已加载到全局内存中。我希望通过让每个线程将其小矩阵加载到共享内存中,然后…

稀香 2024-12-22 13:48:15 4 0

Cuda-memcheck 未报告越界共享内存访问

我正在使用共享内存运行以下代码: __global__ void computeAddShared(int *in , int *out, int sizeInput){ //not made parameters gidata and godat…

傲性难收 2024-12-22 04:41:32 5 0

将整个全局内存缓冲区多次复制到共享内存缓冲区

我在全局内存中有一个缓冲区,我想将其复制到每个块的共享内存中,以加快只读访问速度。每个块中的每个线程将同时在不同位置使用整个缓冲区。 如何做…

拥醉 2024-12-14 12:50:22 5 0

CUDA中2D共享内存是如何排列的

我一直使用线性共享内存(加载、存储、访问邻居),但我在 2D 中做了一个简单的测试来研究存储体冲突,结果让我感到困惑。 下一个代码将数据从一维全…

黑寡妇 2024-12-11 18:12:05 6 0

共享内存的指针运算

我不明白以下几行到底发生了什么: unsigned char *membershipChanged = (unsigned char *)sharedMemory; float *clusters = (float *)(sharedMemory …

北方的韩爷 2024-12-06 23:09:06 6 0

cuda nbody模拟-共享内存问题

基于 Nvidia GPU 计算 SDK 的示例,我为 nbody 模拟创建了两个内核。第一个不利用共享内存的内核比第二个使用共享内存的内核快约 15%。为什么共享内存…

清醇 2024-12-02 10:16:39 8 0

CUDA中本地内存比共享内存慢吗?

我只发现一个评论,本地内存比寄存器内存(每线程两个类型)慢。 共享内存应该很快,但是它比[线程的]本地内存快吗? 我想做的是一种中值过滤器,但使…

情未る 2024-12-01 20:03:40 6 0

为什么将共享内存数组填充一列可以使内核速度提高 40%?

当共享内存数组填充一列时,为什么这个矩阵转置内核更快? 我在 PyCuda/Examples/MatrixTranspose 找到了内核。 源 import pycuda.gpuarray as gpuarr…

泛泛之交 2024-11-28 23:00:10 7 0

静态与动态 CUDA 共享内存分配的性能

我有 2 个内核,它们的功能完全相同。其中一种静态分配共享内存,另一种在运行时动态分配内存。我将共享内存用作二维数组。因此,对于动态分配,我有…

忆离笙 2024-11-19 11:40:07 10 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文