FFT - 何时加窗？

发布于 2024-12-05 18:57:47 字数 266 浏览 8 评论 0原文

我在这里看到了各种 FFT 问题，但我对部分实现感到困惑。我不想实时执行 FFT，而是想离线执行。假设我有 float[] audio 中的原始数据。采样率为 44100，因此 audio[0] 到 audio[44099] 将包含 1 秒的音频。如果我的 FFT 函数处理窗口（例如 Hanning），我是否只需将整个音频缓冲区一次性放入函数中？或者，我是否必须将音频切成 4096 块（我的窗口大小），然后将其输入到 FFT，然后 FFT 将在顶部执行窗口功能？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夢归不見 2024-12-12 18:57:47

您可能需要将输入数据复制到单独的缓冲区并以正确的格式获取它，例如，如果您的 FFT 就地，或者如果它需要交错的复杂数据（实数/虚数）。但是，如果您的 FFT 例程可以采用纯真实输入并且不是就地（即非破坏性），那么您可能只需传递指向原始样本数据的指针以及适当的大小参数即可。

通常，对于 1 秒的音频（例如语音或音乐），您会选择与相当稳定的音频块相对应的 FFT 大小，例如 10 毫秒或 20 毫秒。因此，在 44.1 kHz 时，您的 FFT 大小可能是 512 或 1024。然后，您可以通过在缓冲区中前进并在每个起点执行新的 FFT 来生成连续的频谱。请注意，通常的做法是重叠这些连续的缓冲区，通常重叠 50%。因此，如果 N = 1024，您的第一个 FFT 将针对样本 0..1023，第二个 FFT 将针对样本 512..1535，然后是 1024..2047，依此类推。

回复收藏 0 原文

玩套路吗 2024-12-12 18:57:47

选择是否对整个数据集计算一次 FFT（在 OP 的情况下，44100 个样本代表 1 秒的数据），或者是否对整个数据集的较小子集进行一系列 FFT，取决于数据，以及 FFT 的预期目的。

如果整个数据集上的数据在频谱上相对静态，那么可能只需要对整个数据集进行一次 FFT。

然而，如果数据在数据集上是频谱动态的，则对数据的小子集进行多次滑动 FFT 将创建更准确的数据时频表示。

下图显示了弹奏 A4 音符的原声吉他的功率谱。音频信号以 44.1 KHz 采样，数据集包含 131072 个样本，大约 3 秒的数据。该数据集预先乘以 Hann 窗函数。

吉他谱，汉恩窗，131072 个样本

下图显示了 16384 个样本子集（0 到 16383）的功率谱取自原声吉他 A4 音符的完整数据集。该子集还预先乘以 Hann 窗函数。

吉他频谱，汉恩窗，16384 个样本

注意子集的频谱能量分布与完整的数据集。

如果我们使用滑动 16384 个样本帧从完整数据集中提取子集，并计算每个帧的功率谱，我们将创建完整数据集的准确时频图。

参考资料：

真实音频信号数据、Hann 窗函数、绘图、FFT 和频谱分析均在此处完成：

快速傅立叶变换、频谱分析、汉恩窗函数、音频数据

回复收藏 0 原文

你怎么敢 2024-12-12 18:57:47

您选择的块大小或窗口长度控制 FFT 结果的频率分辨率和时间分辨率。您必须确定您想要哪个或要做出什么权衡。

较长的窗口可以提供更好的频率分辨率，但时间分辨率较差。较短的窗口，反之亦然。每个 FFT 结果箱将包含大约 1 到 2 倍采样率除以 FFT 长度的频率带宽，具体取决于窗口形状（矩形、von Hann 等），而不仅仅是一个频率。如果您的整个数据块是固定的（频率内容不会改变），那么您可能不需要任何时间分辨率，并且可以在 1 秒数据中采用 1 到 2 Hz 频率“分辨率”。对多个短 FFT 窗口进行平均也可能有助于减少频谱估计的方差。

回复收藏 0 原文

~没有更多了~