当前位置：文江博客话题详情

用于音调检测的 FFT

发布于 2024-11-17 18:21:27 字数 185 浏览 13 评论 0原文

我最近一直在使用 FFT 进行音高检测，我注意到，虽然音符是正确的（例如 C、D# 等），但有很多音符处于错误的八度音程（例如 E2 被归类为 E3，C3 被归类为 E3）。归类为 C4，始终高八度）。

为什么会这样呢？我的算法是在计算 FFT bin 后，得到强度最大的 bin 并计算它的频率。

对此有什么帮助吗？谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

紧拥背影 2024-11-24 18:21:27

两个想法：-

如果您的输入和算法始终与您的预期相差 1 个八度，那么您不能接受这样的校准并始终减去一个八度吗？
当您使用吉他弦时，您总是会得到一个谐波（第二谐波），该谐波恰好高一个八度，非常响亮 - 大约与自然声音（第一谐波）一样响亮。接下来你会得到 1 个八度 7 个半音（第 3 次谐波），但八度谐波确实很明显。

回复收藏 0 原文

じее 2024-11-24 18:21:27

对我来说听起来像是和声。格雷格提出的尖锐问题似乎是正确的。

如果这是真的，您可以尝试查找所有存储桶的统计中位数并找到最接近的，而不是查找统计模式（就像您当前所做的那样）。

中位数如果您发现输出存在变化，您还可以进行时间平滑（随时间变化的平均值）。

我知道吉他调音师做了其中一些事情，但仍然会间歇性地出现错误。这是一件混乱的事情:)

说到实时采样，根据您的样本来源，需要考虑很多异常情况，这些异常可能会给您带来意想不到的结果：

声音中的泛音声音
中听不见的音调

这些将显示在您的数据中，但您可能听不到他们的声音。如果您尝试匹配多个音调或和弦，您的工作将更加复杂。

回复收藏 0 原文

怪我闹别瞎闹 2024-11-24 18:21:27

在决定将音高置于哪个八度音阶时，尝试向每个存储桶添加以 3 倍频率出现的音频量的一部分（例如，向 440Hz 存储桶添加 1320Hz 存储桶的振幅的一小部分）。在大多数乐器上，A440 可能在 880Hz、1320Hz、1760Hz、2200Hz、2640Hz 等处有重要的分量。A880 可能有 880Hz、1760Hz 和 2640Hz，但不会有重要的 1320Hz 分量（也没有 2220Hz）事情）。因此，如果您的代码试图确定某个音符是 A440 还是 A880，那么查看三次谐波（或其他奇数谐波）可能会提供有用的线索。

回复收藏 0 原文

桃扇骨 2024-11-24 18:21:27

倍频程检测可能非常棘手，尤其是对于缺少基波谐波和/或其他谐波的复调信号。假设您正确检测“音调”而不仅仅是“谐波”（请参阅下面的维基百科链接），那么您可以使用我开发的八度检测算法。

为了对 PitchScope Player 进行音高检测，我决定采用 2 阶段算法，其工作原理如下：a) 首先检测音符的 ScalePitch——“ScalePitch”有 12 个可能的音高值：{ E、F、F#、 G、G#、A、A#、B、C、C#、D、D# }。确定音符的音阶音高和时间宽度后，b) 然后通过检查 4 个可能的八度候选音符的所有和声来计算该音符的八度（基音）。

我的音高检测应用程序 PitchScope Player 的完整 C++ 源代码和可执行文件位于 GitHub（下面的链接）上，您可以编译并单步执行它以查看我的 Octave 检测算法的工作原理。

您需要重点关注 FundCandidCalcer.cpp 文件中的 FundCandidCalcer::Calc_Best_Octave_Candidate() 函数，以查看 C++ 中的该算法。下图还给出了如何计算八度的粗略想法。

https://en.wikipedia.org/wiki/Transcription_(music)#Pitch_detection< /a>

https://github.com/CreativeDetectors/PitchScope_Player

下图演示了我开发的八度检测算法，用于选择正确的八度候选音符（即正确的基本音符），一旦 ScalePitch 为该注释已经确定。