C:按静音间隙分割wav文件

发布于 2024-12-10 19:32:12 字数 210 浏览 0 评论 0原文

我有一群人阅读简单的句子（hello world）作为 wav 文件，如何通过自动识别单词之间的间隙来将 wav 文件分解为 2 个 wav 文件，每个文件都包含单词（hello 和 world）？不幸的是，我无法找到为我做这件事的工具，所以我将编写 C 代码来做到这一点，据我了解，wav 文件中的间隙应该是低数值，对吗？我知道如何破坏文件我很高兴能找到解决间隙识别问题的方法。谢谢你！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

无力看清 2024-12-17 19:32:12

http://digitalcardboard.com/blog/2009/08/ 25/the-sox-of-silence/

我确信这是您需要的链接。

 sox in.wav out.wav silence 1 0.5 1% 1 5.0 1% : newfile : restart

当 SoX 检测到 5 秒或以上的静音时，它将分割音频。您最终将得到名为 out001.wav、out002.wav 等的输出文件。

http://digitalcardboard.com/blog/2009/08/25/the-sox-of-silence/

I am sure this is the link you need.

 sox in.wav out.wav silence 1 0.5 1% 1 5.0 1% : newfile : restart

SoX will split audio when it detects 5 or more seconds of silence. You’ll end up with output files named out001.wav, out002.wav, and so on.

回复收藏 0 原文

梦巷 2024-12-17 19:32:12

我处理此类任务的方法是将 wav 文件分成每个块（例如每个块 0.05 秒），计算每个块的 RMS 幅度，并将 RMS 放大器与阈值进行比较。如果录音是在仔细控制的条件下完成的，并且语音音量相对良好地标准化，则阈值可以是静态值，但另一种方法是动态地检查比前一个块大得多的块。然后，您将超过阈值的块视为单词的开头。

然而，在随意的演讲中，词与词之间可能没有太多停顿。如果我不间断地对你说“helloworld”，你就能很容易地理解我的意思。

RMS 幅度定义为各个样本的平方随时间变化的平均值的平方根。

回复收藏 0 原文