如何在 iOS 上比较两个语音样本？

发布于 2024-10-31 00:56:27 字数 292 浏览 5 评论 0原文

首先，我想声明，我的问题并不是关于语音识别的“经典”定义。

我们试图做的事情有些不同，从某种意义上说：

用户记录他的命令
稍后，当用户说出预先记录的命令时，就会发生某个动作。

例如，我录制了一个呼叫我妈妈的语音命令，所以我点击她并说“妈妈”。然后当我使用该程序并说“妈妈”时，它会自动呼叫她。

如何将口头命令与保存的语音样本进行比较？

编辑：我们不需要任何“文本到语音”的能力，只需比较声音信号即可。显然，我们正在寻找某种现成的产品或框架。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

旧情别恋 2024-11-07 00:56:27

音乐识别的一种方法是获取所讨论的两种声音的频谱时间序列（时间窗 STFT FFT），在时间轴上映射频率峰值的位置，并对两个 2D 时间进行互相关-匹配的频率峰值映射。这比仅仅互相关 2 个声音样本要稳健得多，因为峰值的变化远小于频谱峰值之间的所有频谱“干扰”。如果两个话语的语速和音调没有发生太大变化，则此方法效果会更好。

在 iOS 4.x 中，您可以使用 Accelerate 框架进行 FFT，也可以使用 2D 互相关。

回复收藏 0 原文