当前位置：文江博客话题详情

matrix cuda fft c++ convolution

CUDA 卷积 - 不可分离内核

发布于 2024-10-28 21:57:56 字数 264 浏览 8 评论 0原文

我需要实现一个具有不可分离内核的图像卷积的高效版本（因此 CUDA 的 sdk 仅适用于 FFT 示例，但明确指出它仅适用于大内核大小）

除了从头开始实现它之外在我看来，我的需要是对先验未知大小的矩阵和内核进行操作（它们可以是 10x10 作为 20.000x20.000，我根本无法预测它）

您对 FFT 示例有何建议？（如果这是您的最佳选择，请向我提供一些好的观点来开始弄清楚它是如何工作的）

对于第二个选择（我自己手动实现卷积），最大化内存合并的建议是什么？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

听不够的曲调 2024-11-04 21:57:56

我对 GPU 的建议：

首先把它做好。熟悉您所使用的算法
想要实施
首先是在 GPU 上，然后是在 CPU 上。你将不得不面对这么多
更多低级细节，因此了解输出必须是什么非常重要。
速度要快。如果可以使用 FFT 方法，它是最快的一种
（大多数情况下）。

为了实现您的第一个目标，我建议您尝试使用 OpenCv 来实现它。
它有一个非常好的 python 包装器，并提供过滤框架

确定你的结果以及如何使用 OpenCv 实现该结果，测试是否可以
使用 FFT 执行相同的操作。将整个系统移植到 GPU 上会容易得多

回复收藏 0 原文

白云不回头 2024-11-04 21:57:56

您可能想看看 theano 中卷积的实现（它们使用非基于 FFT 的内核）......或者只使用 theano。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

忆悲凉

文章 0 评论 0

hgfg1645

文章 0 评论 0

qq_qLPLYi

文章 0 评论 0

戏舞

文章 0 评论 0

殊姿

文章 0 评论 0

﹂绝世的画

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文