GPU 共享内存大小非常小 - 我该怎么办？

发布于 2024-10-17 07:41:58 字数 211 浏览 11 评论 0原文

目前大多数 nVIDIA GPU 上的共享内存（OpenCL 术语中的“本地内存”）大小仅为 16 KiB。
我有一个应用程序，需要在其中创建一个包含 10,000 个整数的数组。所以我需要容纳 10,000 个整数的内存量 = 10,000 * 4b = 40kb。

我该如何解决这个问题？
有没有共享内存超过 16 KiB 的 GPU？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

黄昏下泛黄的笔记 2024-10-24 07:41:58

将共享内存视为显式管理的缓存。您需要将数组存储在全局内存中，并根据需要将其部分缓存在共享内存中，方法是进行多次传递或其他某种方案，以最大限度地减少全局内存的加载和存储数量。

如何实现这一点取决于您的算法 - 如果您可以提供一些您正在尝试实现的具体内容的详细信息，您可能会得到一些更具体的建议。

最后一点 - 请注意，共享内存在块中的所有线程之间共享 - 每个线程的内存远小于 16 kb，除非您有一个对块中所有线程通用的单一数据结构堵塞。

回复收藏 0 原文

等风来 2024-10-24 07:41:58

所有计算能力 2.0 及更高版本的设备（大多数是在过去一两年内）每个多处理器都有 48KB 的可用共享内存。首先，Paul 的答案是正确的，因为您可能不希望将所有 10K 整数加载到单个多处理器中。

回复收藏 0 原文

金橙橙 2024-10-24 07:41:58

您可以尝试使用cudaFuncSetCacheConfig(nameOfKernel, cudaFuncCachePrefer{Shared, L1})函数。

如果您更喜欢 L1 而不是共享，则 48KB 将分配给 L1，16KB 将分配给共享。
如果您更喜欢共享而不是 L1，则 48KB 将分配给共享，16KB 将分配给 L1。

用法：

cudaFuncSetCacheConfig(matrix_multiplication, cudaFuncCachePreferShared);
matrix_multiplication<<<bla, bla>>>(bla, bla, bla);

You can try to use cudaFuncSetCacheConfig(nameOfKernel, cudaFuncCachePrefer{Shared, L1}) function.

If you prefer L1 to Shared, then 48KB will go to L1 and 16KB will go to Shared.
If you prefer Shared to L1, then 48KB will go to Shared and 16KB will go to L1.

Usage:

cudaFuncSetCacheConfig(matrix_multiplication, cudaFuncCachePreferShared);
matrix_multiplication<<<bla, bla>>>(bla, bla, bla);

回复收藏 0 原文

~没有更多了~

关于作者

万水千山粽是情ミ

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

GPU 共享内存大小非常小 - 我该怎么办？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

牛↙奶布丁

COSO

落叶

暗地喜欢

qq_i8qOEG

qq_Wl4Sbi

友情链接

GPU 共享内存大小非常小 - 我该怎么办？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

牛↙奶布丁

COSO

落叶

暗地喜欢

qq_i8qOEG

qq_Wl4Sbi

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。