以自动方式转录 WMA/MP3 音频？

发布于 2024-08-07 03:56:14 字数 137 浏览 13 评论 0原文

我有很多 WMA 格式的语音音频，我想用机器转录它 - 即使转录不是 100% 准确，我认为它作为某些音频的“索引”会有很大帮助。我愿意编写一些代码来实现这一点，但是 Microsoft 的语音 API 可以帮助我吗？是否已经有一个应用程序可以为我执行此操作？

需要登录才能够评论，你可以免费注册一个本站的账号。

生来就爱笑 2024-08-14 03:56:14

SAPI当然可以做你想做的事。从进程内识别器开始，将音频作为文件流连接（您可能需要将 WMA 文件转码为 WAV 流，因为 SAPI 只接受 WAV 输入，但您可以即时进行转码），设置听写模式，然后就可以开始了。

现在令人失望的是。你可能不会得到非常好的结果；事实上，我怀疑除非你非常幸运，否则你可能得到的都是垃圾。

存在几个问题：

听写只有在 SR 引擎经过训练后才能正常工作。如果你很幸运（像我一样），你可以获得不错的结果，但如果说话者有口音，培训是必须的。
训练只对单一声音有效。如果单个音频文件中有多个扬声器，则效果不会很好。
听写（以及一般的语音识别）的音频模型假设您使用近距离麦克风（即，麦克风紧邻您的脸，以最大程度地减少噪音拾取）。如果您的 WMA 文件有额外的噪音，准确性会急剧下降。

我实际上建议使用 Dragon Naturallyspoken Professional；他们花费了时间和金钱来进行转录。我自己没有使用过，所以我不知道它在你的情况下效果如何。