从视频和音频文件中提取语音文本

发布于 2024-08-11 17:29:21 字数 59 浏览 8 评论 0原文

执行此操作的最佳库是什么?而且质量好,值得信赖。无法使用说话者的声音来训练系统或使用术语词典来改善结果。

What are the best libraries for doing this. And is the quality good enouch to rely on. It will not be possible to train the system with the speakers voice or use a dictionary of terms to improve results.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

冷了相思 2024-08-18 17:29:21

在windows上,你想使用SAPI接口(Speech API)。有多种实现方式。 Microsoft 在 Windows 中提供了一个免费的。 Dragon NaturallySpeaking 是一个非免费的,我过去曾见过它用于类似的任务(需要付出努力)。如果讲话者讲话清晰(并且不会相互重叠和打断),那么缺乏培训的影响就不会那么严重。

但是,您不会获得良好的成绩单,准确性会很差,以至于您获得的内容仅对索引有用。大单词和独特的短语会很好地弹出,特别是如果您创建自定义词典(我知道您说过您不想这样做)。例如,查找所有提到“佩洛西”和“公共选项”的新闻片段。

On windows, you want to use the SAPI interface (Speech API). There are multiple implementations. Microsoft includes a free one with Windows. Dragon NaturallySpeaking is a non-free one that I've seen used in the past for similar tasks (with effort). If the speakers are speaking clearly (and not overlapping and interrupting each other), the lack of training isn't so crippling.

You won't get a good transcript, though, the accuracy will be bad enough that what you get will be useful only for indexing. Large words and unique phrases will pop out nicely, especially if you create a custom dictionary (which I know you said you don't want to do). For instance, finding all the news segments that mention 'Pelosi' and 'public option'.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文