gpu-shared-memory

投稿关注

文章 0 浏览 5

培训stylegan的问题 - 被困在设置pytorch插件上“ upfirdn2d_plugin”

我在训练stylegan3上遇到了一个问题，该终端固定在“设置pytorch插件” upfirdn2d_plugin“ ...”中。我已经尝试了所有发现的方法，例如重新安装Conda…

三生池水覆流年 2025-02-08 19:10:25 3 0

负载和存储操作是否在共享内存原子中？

我试图弄清楚原始类型上的负载和存储操作是否是原子，当我们从CUDA中的共享存储器加载/存储时。一方面，似乎将任何负载/存储都编译到PTX指令 ld.weak…

故笙诉离歌 2025-02-06 08:48:38 3 0

cuda c＆＃x2b;＆＃x2b;如何编程基于共享内存带宽？

我正在寻找一种基准共享内存和L1/L2缓存的方法。但是，我发现的基准结果取决于来源大不相同。在本文中，解剖NVIDIA vidia volta volta gpu gpu架构，…

故事↓在人 2025-01-24 14:57:18 5 0

CUDA 共享数组未获取值？

我正在尝试实现简单的并行缩减。我正在使用 CUDA SDK 中的代码。但不知何故，我的内核存在问题，因为共享数组没有获取全局数组及其全零的值。 extern …

友谊不毕业 2025-01-05 05:54:06 5 0

入口函数使用太多共享数据（0x8020 字节 + 0x10 字节系统，最大 0x4000） - CUDA 错误

我使用的是 Tesla C2050，它的计算能力为 2.0，共享内存为 48KB。但是，当我尝试使用此共享内存时，nvcc 编译器给出以下错误 Entry function '_Z4SAT3…

老街孤人 2024-12-29 11:30:09 7 0

如何正确将从全局内存读取的内容合并到具有 Short 或 char 类型元素的共享内存中（假设每个元素有一个线程）？

我对 CUDA 中合并全局内存负载有疑问。目前我需要能够在具有计算能力 CUDA 1.1 或 1.3 的 CUDA 设备上执行。我正在编写一个 CUDA 内核函数，它将一个…

情深如许 2024-12-28 12:52:58 6 0

CUDA如何在运行时在内核中的共享内存中创建数组？

我有大量线程运行的任务，每个线程都执行一个小的矩阵乘法。所有小矩阵都已加载到全局内存中。我希望通过让每个线程将其小矩阵加载到共享内存中，然后…

稀香 2024-12-22 13:48:15 4 0

Cuda-memcheck 未报告越界共享内存访问

我正在使用共享内存运行以下代码： __global__ void computeAddShared(int *in , int *out, int sizeInput){ //not made parameters gidata and godat…

傲性难收 2024-12-22 04:41:32 5 0

将整个全局内存缓冲区多次复制到共享内存缓冲区

我在全局内存中有一个缓冲区，我想将其复制到每个块的共享内存中，以加快只读访问速度。每个块中的每个线程将同时在不同位置使用整个缓冲区。如何做…

拥醉 2024-12-14 12:50:22 5 0

CUDA中2D共享内存是如何排列的

我一直使用线性共享内存（加载、存储、访问邻居），但我在 2D 中做了一个简单的测试来研究存储体冲突，结果让我感到困惑。下一个代码将数据从一维全…

黑寡妇 2024-12-11 18:12:05 6 0

共享内存的指针运算

我不明白以下几行到底发生了什么： unsigned char *membershipChanged = (unsigned char *)sharedMemory; float *clusters = (float *)(sharedMemory …

北方的韩爷 2024-12-06 23:09:06 6 0

cuda nbody模拟-共享内存问题

基于 Nvidia GPU 计算 SDK 的示例，我为 nbody 模拟创建了两个内核。第一个不利用共享内存的内核比第二个使用共享内存的内核快约 15%。为什么共享内存…

清醇 2024-12-02 10:16:39 8 0

CUDA中本地内存比共享内存慢吗？

我只发现一个评论，本地内存比寄存器内存（每线程两个类型）慢。共享内存应该很快，但是它比[线程的]本地内存快吗？我想做的是一种中值过滤器，但使…

情未る 2024-12-01 20:03:40 6 0

为什么将共享内存数组填充一列可以使内核速度提高 40%？

当共享内存数组填充一列时，为什么这个矩阵转置内核更快？我在 PyCuda/Examples/MatrixTranspose 找到了内核。源 import pycuda.gpuarray as gpuarr…

泛泛之交 2024-11-28 23:00:10 7 0

静态与动态 CUDA 共享内存分配的性能

我有 2 个内核，它们的功能完全相同。其中一种静态分配共享内存，另一种在运行时动态分配内存。我将共享内存用作二维数组。因此，对于动态分配，我有…

忆离笙 2024-11-19 11:40:07 10 0

共 2 页
1
2
下一页

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客