用于转录音频文件中的语音的开源软件

发布于 2024-12-07 13:44:31 字数 1803 浏览 5 评论 0原文

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

∞觅青森が 2024-12-14 13:44:31

为什么无法读取wav?

它告诉您文件的采样率 (8000) 错误,而不是请求的采样率 (16000)。采样率对于语音识别软件非常重要。

为什么无法读取/dev/dsp?

在最新版本的Ubuntu中,使用pulseaudio框架代替OSS。您正在尝试的版本正在使用 OSS,因此您需要从您的发行版中安装 oss-compatibility 包才能恢复 OSS 支持。

您可以尝试更新的 Julius,它支持pulseaudio

为什么它似乎能够读取 /dev/dsp,但没有任何反应?

音频输入无法正常工作。

还有其他人在开源语音识别器方面取得过成功吗?
特别是在 Linux 上?

当然,请查看此视频作为人们如何使用 CMUSphinx 的示例:

http://www.youtube。 com/watch?v=vfaNLIowSyk

我建议您重新访问 CMUSphinx 软件包,它是一个领先的开源语音识别引擎。网站上有大量文档,您只需阅读它们即可。请记住,语音识别是一个复杂的领域,您可以获得很好的结果,但您也需要投入时间来理解该技术。就像任何其他域一样。

简而言之,要使用 CMUSPhinx 转录文件,您需要执行以下 3 个简单步骤:

  1. 获取 wav 文件并使用 sox 将其重新采样为 8khz 16 位单声道文件:
    sox input.wav -r 8000 -c 1 resampled.wav
  1. 安装 pocketsphinx 0.7
   apt-get install pocketsphinx
  1. 解码文件
    pocketsphinx_continuous -samprate 8000 -infile resampled.wav

结果将打印到标准输出。要抑制记录器,请将 stderr 重定向添加到 /dev/null

    pocketsphinx_continuous -infile resampled.wav 2> /dev/null

Why can't it read a wav?

It tells you that the file has wrong sampling rate (8000) instead of requested (16000). Sampling rate is very important for speech recognition software.

Why can't it read /dev/dsp?

In recent versions of Ubuntu pulseaudio framework is used instead of OSS. The version you are trying is using OSS so you need to install oss-compatibility package from your distribution to bring OSS support back.

You can try newer Julius which has pulseaudio support

Why does it then appear to be able to read /dev/dsp, but not react in any way?

Audio input doesn't work properly.

Has anyone else had any success with open source speech recognizers,
especially on Linux?

Sure, check this video as an example of what people do with CMUSphinx:

http://www.youtube.com/watch?v=vfaNLIowSyk

I suggest you to revisit CMUSphinx package which is a leading open source speech recognition engine. There are loads of documents on the website, you just need to read them. Remember that speech recognition is a complex area where you can get a great results but you also need to invest your time in understanding the technology. Just like with any other domain.

In short, to transcribe a file with CMUSPhinx you need to do the following 3 simple steps:

  1. Take wav file and resample it to 8khz 16 bit mono file with sox:
    sox input.wav -r 8000 -c 1 resampled.wav
  1. Install pocketsphinx 0.7
   apt-get install pocketsphinx
  1. Decode the file
    pocketsphinx_continuous -samprate 8000 -infile resampled.wav

The result will be printed to standard output. To supress the logger, add stderr redirection to /dev/null

    pocketsphinx_continuous -infile resampled.wav 2> /dev/null
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文