iOS / C：检测音素的算法

发布于 2024-11-15 23:12:01 字数 819 浏览 4 评论 0原文

我正在寻找一种算法来确定实时音频输入是否与 144 个给定（且完全不同的）音素对之一匹配。

最好是完成这项工作的最低级别。

我正在为 iPhone / iPad 开发激进/实验性音乐培训软件。

我的音乐系统包含 12 个辅音音素和 12 个元音音素，如此处所示。这就产生了 144 个可能的音素对。学生必须唱出正确的音素对“laa duu bee”等以响应视觉刺激。

我对此做了很多研究，看起来我最好的选择可能是使用 iOS Sphinx 包装器之一（ iPhone 应用程序 › 添加语音识别？是我找到的最好的信息来源）。但是，我不知道如何调整这样的包，任何有使用这些技术经验的人都可以给出所需步骤的基本概要吗？

用户是否需要接受培训？我本以为不会，因为与数千个单词的完整语言模型和更大、更微妙的音素基础相比，这是一项非常基本的任务。然而，让用户训练 12 个音素对是可以接受的（不理想）：{辅音1+元音1，辅音2+元音2，...，辅音12+元音12 }。满144太累赘了。

有没有更简单的方法？我觉得使用功能齐全的连续语音识别器就像使用大锤来破解坚果。使用最少的技术来解决问题会更加优雅。

所以我真的在寻找任何可以识别音素的开源软件。

PS我需要一个几乎实时运行的解决方案。因此，即使他们正在唱这个音符，它首先会闪烁以说明它拾取了所唱的音素对，然后它会发光以说明他们是否正在唱正确的音符音高

需要登录才能够评论，你可以免费注册一个本站的账号。

梦幻的心爱 2024-11-22 23:12:01

如果您正在寻找手机级开源识别器，那么我会推荐HTK。该工具以 HTK 书籍的形式提供了非常好的文档。它还包含一整章致力于构建电话级实时语音识别器。从上面的问题陈述来看，在我看来，您也许可以将该示例重新修改为您自己的解决方案。可能的陷阱：

由于你想做一个手机级别的识别器，训练手机模型所需的数据会非常多。此外，您的训练数据库应该在电话分布方面保持平衡。
构建一个独立于说话者的系统需要来自多个说话者的数据。还有很多。构建一个独立于说话者
由于这是开源的，您还应该检查许可信息以获取有关发送代码的任何其他详细信息。一个好的替代方案是使用手机录音机，然后将记录的波形通过数据通道发送到服务器进行识别，这与谷歌的做法非常相似。