如何将人声转换为数字格式？

发布于 2024-10-19 13:16:00 字数 376 浏览 7 评论 0原文

我正在开展一个使用生物识别系统来保护系统的项目。我们计划使用人声来保护系统。

想法是让人们说出一些单词或句子，系统将以数字格式存储该语音。下次人们想要进入系统时，他/她必须说出一些单词，这些单词可能与之前使用的单词不同，也可能没有不同。

我们不想匹配单词，而是想要匹配语音频率。

我已经阅读了一些有关该系统的研究论文，但这些论文没有任何实现细节。

所以只想知道是否有任何软件/API 可以将模拟语音转换为数字格式，并且还会告诉我们语音的频率。

到目前为止，我一直在开发基于 Web 的普通应用程序，因此我了解普通的 API 和平台，如 Java EE、C# 等，但我对此类应用程序没有任何经验。

请赐教！！！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

人间不值得 2024-10-26 13:16:01

http://www.loquendo.com/en/products/speaker-verification /
http://www.nuance.com/for-business/by-solution/contact-center-customer-care/cccc-solutions-services/verifier/index.htm
（由于报告的病毒内容，两个链接被删除）
http://www.persay.com/products.asp

回复收藏 0 原文

以往的大感动 2024-10-26 13:16:01

这是一个很好的起点： http://marsyas.info/

它是一个开源的音频软件框架加工。他们列出了一系列以各种方式使用其框架的项目，因此您可能会从中汲取灵感。
http://marsyas.info/about/projects。 Telligence 项目尤其似乎最接近您的需求，因为它用于对音频进行性别分类：http:// marsyas.info/about/projects#5Teligence

回复收藏 0 原文

橙味迷妹 2024-10-26 13:16:01

我认为像这样的项目有两个步骤：

第一步是将模拟输入的语音录制为数字格式（假设为 wav-pcm）。为此，您可以使用 C# 中的 DirectShow API，或标准 Wav-In，如本项目所示： http://www.codeproject.com/KB/audio-video/cswavrec.aspx。您可能会考虑稍后压缩您的音频文件，有很多选项，在 Windows 中您可以考虑使用 Windows Media Format SDK 以避免其他格式的许可问题。

第二步是构建或使用语音识别框架，如果您想构建一个识别框架，您可能需要为您的声音片段定义一组“特征”并选择+实现识别算法。有许多方法可用于此目的，IEEE amd ACM.org 网站通常是很好的来源。如果您想使用现有框架，您可能需要考虑 Nuance Recognizer（商业版）或 http://cmusphinx.sourceforge.net< /a>（开源）。

希望这有帮助。

回复收藏 0 原文

~没有更多了~