在支持 CUDA 的示例设备中,测量到的内存层次结构的延迟值是多少?
即使这个问题与我的类似,仍然没有发布任何不同类型的延迟值。我希望得到实际的测量结果以及对方法的解释以及他们的方法的推理。任何支持 CUDA 的独立 NVidia 卡都是理想的选择。
测量内容:
寄存器
共享内存
恒定缓存命中
设备内存
全局内存
Even though this question is similar to mine, there still isn't any published latency values for the different types. I'd appreciate an actual measurement and an explanation of the methods and reasoning for their approach. Any CUDA capable discrete NVidia card would be ideal.
Things to measure:
Register
Shared Memory
Constant Cache Hit
Device Memory
Global Memory
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
本文几乎是 CUDA GPU 的黄金标准基准测试示例。它使用 Tesla C1060/GTX 285“GT200”级 GPU 通过非常彻底的微基准测试公开您感兴趣的大部分信息。
This paper is pretty much the gold standard benchmarking example for a CUDA GPU. It exposes most of the information you are interested in by very thorough micro benchmarking, using the Tesla C1060/GTX 285 "GT200" class GPU.