当前位置：文江博客话题详情

signal-processing speech-recognition voice voice-recording

“语音触发” 检测

发布于 2024-07-21 20:50:11 字数 231 浏览 13 评论 0原文

我有一个语音应用程序，如果能够使用“触发词”开始录制音频，那么该应用程序将会得到很大的改进。我不需要完整的语音文本引擎，只需要可靠/高效地检测触发词的能力。

我想知道是否有任何专门的语音引擎支持这个特定的用例，或者有任何库/方法来开发这样的单一用途检测引擎。理想情况下，我希望它能够在嘈杂的环境中工作，但它可以针对单个用户的声音进行训练。

研究论文/主题的指针也将不胜感激，这样我就知道要问什么。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（5）

入怼 2024-07-28 20:50:11

我的 Red5 项目同事创建了一个类似的演示，使用触发词来对图像存储库运行搜索。说“猫”会在大约一秒钟内出现一只猫的图像。客户端应用程序是用 Flash 编写的，后端使用免费的 Sphinx 库在 Red5 上运行。您当然可以毫不费力地使用 Sphinx 做您想做的事情。

Sphinx 项目：http://cmusphinx.sourceforge.net/sphinx4/

回复收藏 0 原文

不必在意 2024-07-28 20:50:11

好吧，我可能完全不在话下，但使用功能齐全的语音识别库对于您的用例来说可能有点过分了。

如果您可以接受更简单但仍然由音频驱动的东西，请考虑这一点：

检测拍手非常简单。拍手将在整个音频带上具有高能量。检测它比完整的语音识别简单且计算成本低得多。

简而言之，您录制音频，对数据进行（短时间）FFT，并检测 80% 的可用频率仓中具有高能量的情况。 80% 的人会因为简单的录音室/麦克风设置而解决任何相位问题。然后根据口味调整阈值，就完成了。

对语音识别执行同样的操作也是可能的，但您将消耗大量的 CPU 周期。

回复收藏 0 原文

黒涩兲箜 2024-07-28 20:50:11

什么操作系统？例如，我想知道 Windows Vista 中的语音功能是否会对您有所帮助。对于任何语音分析器来说，识别单个单词似乎是最简单的问题。

回复收藏 0 原文

几度春秋 2024-07-28 20:50:11

有人问一个问题只是一个几天前关于 Linux 上语音识别的可能性。您要求的是其中的一个子集，我认为其中一些答案可能包含有用的信息。 joeforker 的回答中链接的文章非常有趣。

回复收藏 0 原文

把昨日还给我 2024-07-28 20:50:11

我有一个录音 win32 应用程序。我使用 OCX 来管理录制/播放。

我知道这并不完全是您所要求的解决方案，但您可能需要考虑脚踏板。它的编程很简单，并且非常像用口语来开始/停止录音。检查这些：www.pedalpower.com

希望它有帮助，

雷纳尔多。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

知足的幸福

文章 0 评论 0

我一向站在原地

文章 0 评论 0

慕烟庭风

文章 0 评论 0

秉忠贞之诚守退让之实

文章 0 评论 0

小兔几

文章 0 评论 0

mb_3y7WUgWY

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文