当前位置：文江博客话题详情

java语音识别Sphinx 4

发布于 2024-08-18 11:48:53 字数 250 浏览 9 评论 0原文

我想使用 sphinx4 或 HTK 工具包来构建一个语音识别应用程序，旨在通过声音估计一个人的年龄。我在更大程度上理解了语音识别中涉及的统计模型。我对梅尔频率倒谱系数和高斯混合模型感兴趣，因为这两个模型更适合我的问题域。我是否必须使用神经网络并从狮身人面像分类器派生的向量中输入训练数据？我不太确定从哪里开始使用 sphinx 或 HTK 工具包。我是狮身人面像和语音识别的新手，我的应用程序只是一个原型。

任何人都可以在这方面提供某种形式的指导吗？亲切的问候。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

葬花如无物 2024-08-25 11:48:53

通常，像这样的事情首先要从学术界寻找相关的工作。 Minematsu 等人2002 年，他们使用梅尔频率倒谱系数的高斯混合模型 (GMM) 来区分年长和年轻的说话者。

想必，如果您能够访问年老和年轻演讲者的训练数据，您应该能够做到同样的事情。即使您想尝试其他分类器后端（例如神经网络），从 GMM 开始可能会很好，因为您知道它们应该适合您的任务，并且它们会给您一些与其他分类器进行比较的东西你想尝试使用。

如果您只是为了好玩或作为一个研究项目而这样做，我建议使用 HTK，因为我喜欢它的模块化程度。然而，如果这是出于商业目的，您可能应该选择 Sphinx，因为它可以在类似 BSD 的许可证下重新分发。

回复收藏 0 原文

梦里兽 2024-08-25 11:48:53

我决定不选择 Sphinx 4，因为它基于隐马尔可夫模型，该模型主要用于序列分析，例如语音识别，甚至基于输入序列的界面的多模态输入。我使用了一个名为 Praat 的软件，它用于语音处理和合成。如果您愿意的话，还有一个“插件”，称为“Akustyk”，用于分析元音等。我不确定这个方向可能对你有价值。

然后，您可以使用 mathlab 并使用模式识别工具箱来实现您的神经网络、GMM 或您希望采用的任何方法。

希望有帮助。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

Promise

文章 0 评论 0

qq_lbRlsh

文章 0 评论 0

待＂谢繁草

文章 0 评论 0

yy2010hell

文章 0 评论 0

漫无边际

文章 0 评论 0

傲娇萝莉攻

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文