简单的语音识别方法

发布于 2024-12-20 11:05:52 字数 580 浏览 0 评论 0原文

是的，我知道语音识别相当复杂（轻描淡写）。我正在寻找一种区分 maybe 20-30 个短语的方法。分割单词的能力（离散语音很好）会很好，但不是必需的。该软件将取决于用户（即供我使用）。我不是在寻找现有的软件，而是在寻找一种自己做这件事的好方法。我研究了各种现有的方法，似乎将声音分成音素虽然很常见，但对于我的需求来说有点过度。

对于某些情况，我只是在寻找一种通过一些简单的语音命令来控制计算机某些方面的方法。我知道 Windows 已经有语音识别软件，但我想自己尝试一下这个软件作为学习练习。命令很简单，例如“打开 Google”或“静音”。我的想法（不确定这是否是个好主意）是某些命令是复合的。所以“静音”就只是“静音”。而“打开”命令可以单独识别，然后有其后缀（Google、Photoshop 等）。被另一个网络/模型/其他东西识别。但我不确定以这种方式查找前缀/断词是否会比处理数量增加的单个命令产生更好的结果。

我一直在研究感知器、hopfield 网络（尽管根据我的理解，它们有些过时）和 HMM，虽然我理解这些背后的想法（我之前已经实现了 ANN），但我真的不知道哪个是最适合这项任务。我假设线性矢量量化模型也是合适的，但我实际上找不到太多这方面的文献。任何指导/资源将不胜感激。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

太阳男子 2024-12-27 11:05:52

语音识别方面有一些开源项目：

HTK (Hidden Markov Models Toolkit)
Sphinx

都有解码器、训练、语言模型工具包。构建一个完整且强大的语音识别器的一切。
Voxforge 拥有适用于两个开源语音识别工具包的声学和语言模型。

回复收藏 0 原文

习惯成性 2024-12-27 11:05:52

前段时间，我读了一篇关于有限词汇系统的白皮书，该系统使用了一个简单的识别过程。系统将每个话语划分为少量的 bin（时间上有 6 个，幅度上有 4 个，如果我没记错的话，总共 24 个），它所做的只是计算每个 bin 中样本音频测量的数量。有一个模糊逻辑规则库，然后解释每个话语 24 个 bin 计数，并生成一个解释。

我想（对于某些应用程序）一个简单的匹配过程可能也同样有效，其中当前话语的 24 个 bin 计数与每个存储的原型的计数进行简单匹配，总体差异最小的一个是优胜者。

回复收藏 0 原文

~没有更多了~