在支持 CUDA 的示例设备中,测量到的内存层次结构的延迟值是多少?

发布于 2024-12-20 11:18:26 字数 359 浏览 1 评论 0原文

即使这个问题与我的类似,仍然没有发布任何不同类型的延迟值。我希望得到实际的测量结果以及对方法的解释以及他们的方法的推理。任何支持 CUDA 的独立 NVidia 卡都是理想的选择。

测量内容:

  1. 寄存器

  2. 共享内存

  3. 恒定缓存命中

  4. 设备内存

  5. 全局内存

Even though this question is similar to mine, there still isn't any published latency values for the different types. I'd appreciate an actual measurement and an explanation of the methods and reasoning for their approach. Any CUDA capable discrete NVidia card would be ideal.

Things to measure:

  1. Register

  2. Shared Memory

  3. Constant Cache Hit

  4. Device Memory

  5. Global Memory

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

傾旎 2024-12-27 11:18:26

本文几乎是 CUDA GPU 的黄金标准基准测试示例。它使用 Tesla C1060/GTX 285“GT200”级 GPU 通过非常彻底的微基准测试公开您感兴趣的大部分信息。

This paper is pretty much the gold standard benchmarking example for a CUDA GPU. It exposes most of the information you are interested in by very thorough micro benchmarking, using the Tesla C1060/GTX 285 "GT200" class GPU.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文