当前位置：文江博客话题详情

CUDA FFT - 2 的幂

发布于 2024-10-29 22:25:14 字数 108 浏览 4 评论 0原文

我正在查看 CUDA SDK 上的 FFT 示例，我想知道：为什么当填充数据的一半是 2 的幂时，CUFFT 会快得多？（一半是因为在频域中一半是多余的）

使用两倍大小的幂有什么意义？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

余生共白头 2024-11-05 22:25:14

我想这就是你的答案。它使用不同的算法

http://forums.nvidia.com/index.php?showtopic=195094

“我一直在研究类似的
问题。在cuFFT手册中，它是
解释说 cuFFT 使用两个
不同的算法来实现
FFT。其中之一是库利-塔基
另一个是 Bluestein 方法
算法。当尺寸有
仅 2、3、5 和 7 的质因数，例如
(675 = 3^3 x 5^5)，则 675 x 675
性能比 674 好得多
x 674 或 677 x 677。这是使用
库利-塔基方法。如果其中之一
质因数是质因数
大于 2、3、5 或 7，然后对其进行 FFT
数字是使用实现的
布卢斯坦方法。布卢斯坦方法
速度较慢，也有一些
精度损失。 ”

来自手册：http://developer. download.nvidia.com/compute/cuda/3_1/toolkit/docs/CUFFT_Library_3.1.pdf

CUFFT 库实现了多种
FFT 算法，每种算法都有不同的
性能和准确性。最好的
性能路径对应于
变换满足两个的尺寸
标准：
适合 CUDA 共享
内存
是单因素的幂
（例如，二的幂）
这些
变换也是最准确的
由于数值稳定性
选择FFT算法。对于变换
满足第一个标准的尺寸
但不是第二个，CUFFT 使用了更多
通用混合基 FFT 算法
通常速度较慢且数值较少
准确的。因此，如果可能的话
最好使用的大小是
两个或四个，或其他小数的幂
素数（例如，三、五或
七）。另外，二元幂
CUFFT中的FFT算法使
通过阻塞方式使用共享内存
信号的子变换不
满足第一个标准。