使用 Sphinx 4 进行 mp3 识别
我们可以使用 mp3 文件进行语音识别过程而不使用 wav 文件吗?或者我们可以从 mp3 生成 wav 文件,然后进行语音识别而不会对准确性产生严重影响吗?问题是我需要最大限度地减少应用程序中通过网络传输的负载。转换中丢失的信息会成为影响准确性的重要因素吗?
Can we use mp3 files for the voice recognition process without using wav files? or can we generate a wav file from a mp3 and then do the voice recognition without a serious impact on the accuracy? The problem is I need to minimize the load transferred through the network in my application. Will the information which is lost in the conversion be a huge factor for accuracy?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
不直接。为了能够识别mp3流,您需要使用java库读取mp3并转换为pcm流(tritonus -mp3,lameonj)。您还可以调用 ffmpeg 作为单独的进程进行解码。
无论您在何处解码 mp3 文件,这两种情况的准确性都会受到影响。
最好使用无损编解码器(如 flac)进行传输。 mp3 转换会降低 ASR 准确性。另一种方法是在客户端计算特征并将其传输到服务器。
Not directly. To be able to recognize mp3 streams, you need to use java library to read mp3 and convert to pcm stream (tritonus-mp3, lameonj). You can also invoke ffmpeg as a separate process to decode.
Accuracy is affected in both cases, no matter where you decode mp3 file.
It's better to use losseless codec like flac for transfer. mp3 conversion degrades ASR accuracy. Another approach would be to calculate features on the client and transfer them to the server.