如何才能最好地提高双三次插值算法的执行时间？

发布于 2024-10-14 16:12:12 字数 379 浏览 10 评论 0原文

我正在 Intel 上用 C++ 开发一些图像处理软件，它必须在小（大约 1kpx）图像上一遍又一遍地运行双三次插值算法。这需要很多时间，我的目标是加快速度。我现在拥有的是基于文献的基本实现，这是一个稍微改进的（关于速度）版本，它不进行矩阵乘法，而是使用预先计算的公式来计算插值多项式的一部分，最后是一个固定的矩阵乘法代码的点版本（实际上运行速度较慢）。我还有一个具有优化实现的外部库，但它对于我的需求来说仍然太慢。接下来我考虑的是：

使用 MMX/SSE 流处理进行矢量化，在浮点和定点版本上
使用卷积在傅里叶域中进行插值使用
OpenCL 或类似方法将工作转移到 GPU 上

这些方法中哪一种可以产生最大的效果性能提升？你能推荐另一个吗？谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

大姐，你呐 2024-10-21 16:12:13

英特尔 IPP 库，它在内部使用 SIMD为了更快的处理。英特尔 IPP 还使用 OpenMP，如果进行配置，您可以获得相对简单的多处理的优势。

这些库确实支持双三次插值并且是付费软件（您购买开发许可证，但重新分发是免费的）。

回复收藏 0 原文

花桑 2024-10-21 16:12:13

走 GPU 路线要小心。如果你的卷积核太快，你最终会受到 IO 限制。除非您同时实现两者，否则您将无法确定哪一个最快。

GPU Gems 2有一章关于快速三阶纹理过滤，这应该是您的 GPU 解决方案的良好起点。

英特尔线程构建模块和 SSE 指令的组合将构成一个不错的 CPU 解决方案。

回复收藏 0 原文

蓝眸 2024-10-21 16:12:13

不是双三次的答案，但也许是替代方案：
如果我理解你的意思，你有 32 x 32 xy、1024 x 768 图像，并且需要插值图像[xy]。
仅对 xy 进行四舍五入，image[ int( xy )] 颗粒感太强。
但是等等 - 您可以制作一次平滑的双图像 2k x 1.5k，然后拍摄
image2[ int( 2*xy )]：颗粒感较少，速度非常快。或者类似地，
image4[ int( 4*xy )] 在平滑的 4k x 3k 图像中。
其效果如何取决于...