当前位置：文江博客话题详情

opencl gpgpu matrix-multiplication ati

Cayman 科学计算架构中的本地数据存储与纹理缓存

发布于 2024-11-15 17:35:32 字数 290 浏览 9 评论 0原文

我正在尝试在 ATI HD 6990 卡（Cayman 架构）上使用 AMD-APP-SDK 2.4 实现 GEMM 实现。

优化技术之一是使用分块/平铺。

在其实现中，如果我们将子矩阵存储在共享本地内存中更快，还是使用纹理缓存更快？如果可以的话也请说明理由。

还请建议哪个更容易实现。

谢谢。

PS 如果重要的话，我只想要单精度！

注意：子矩阵的大小不是问题，但我觉得它越大越好。唯一需要考虑的因素是，如果内存单位是128位（4个单精度），那么块大小应该是4的倍数。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

暗地喜欢 2024-11-22 17:35:32

Cypress 芯片用于 5800 系列 Radeons。 6900系列使用Cayman内核，它有几个重要的区别，最值得注意的是它是VLIW4架构，而不是早期内核中使用的VLIW5配置。

与往常一样，了解哪种方法更快的唯一确定方法是对其进行基准测试。特别是，由于您没有提供有关子矩阵大小的信息，因此很难说它们最适合在哪里。

回复收藏 0 原文

~没有更多了~

关于作者

ゃ懵逼小萝莉

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

夢野间

文章 0 评论 0

百度③文鱼

文章 0 评论 0

小草泠泠

文章 0 评论 0

zhuwenyan

文章 0 评论 0

weirdo

文章 0 评论 0

坚持沉默

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文