使用CMU的sphinx4转录非数字数据

发布于 2024-11-29 05:11:44 字数 607 浏览 1 评论 0原文

我最近正在研究使用 CMU 的 sphinx4 进行转录并最终强制对齐，即将音频与其转录本对齐。

我发现一个名为 AutoCap 的项目基本上完成了我想要开发的任务。所以，我安装了它，但它不起作用。我尝试调整它，但我获得的只是不正确的时间戳。

所以，我想到使用 sphinx4 并自己尝试一下。我使用 Sphinx 的 Transscriber.jar 文件成功转录了一个 wav 文件。但我无法让它适用于具有非数字数据的音频。自述文件页面指出 “想要转录非数字数据的人应该修改 config.xml 文件以使用正确的语法、语言模型和语言学家来执行此操作”。

那么，任何人都可以为我提供一些有关以下任一方面的帮助：

AutoCap
使用 Sphinx4 转录非数字数据
强制对齐

谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

以歌曲疗慰 2024-12-06 05:11:44

有一个专门用于语音到文本对齐的特定项目。这不是一项简单的任务。开发工作在一个单独的 sphinx4 分支中进行。您可以在这里找到一些详细信息

http://cmusphinx.sourceforge.net/?s=long +audio+alignment

如果您对此项目有任何疑问，欢迎在 sphinx4 论坛上提问

http://sourceforge.net/projects/cmusphinx/forums/forum/382337

回复收藏 0 原文

神经大条 2024-12-06 05:11:44

我目前正在研究同样的问题，即转录非数字数据。我简要浏览了 sphinx 4 程序员指南文档，并按照建议使用了语言模型、声学模型和 JSGF 语法。但得到的回应并不理想。我认为仅仅调整参数或单独更改 config.xml 是不够的。我认为我们需要一个自行开发的算法来配合 sphinx 4，它可以执行更好的语音识别。从我的角度来看..我使用了 lextreeliguist、JSGFGrammar 和 trigram 语言模型。但反响并不大。也许是因为音频输入不完全是美式英语。会多做一点工作..并让你知道我的结果

回复收藏 0 原文

~没有更多了~