有没有简单的VAD实现?

发布于 2024-10-24 12:11:32 字数 1776 浏览 7 评论 0原文

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

花开浅夏 2024-10-31 12:11:32

Google 的开源 WebRTC 代码有一个用 C 语言编写的 VAD 模块。它使用高斯混合模型 (GMM),即通常比简单的能量阈值检测器更有效,特别是在具有动态水平和背景噪声类型的情况下。根据我的经验,它也比 Gilad 在 他们的评论。

VAD 代码是更大的 WebRTC 存储库的一部分,但很容易将其取出并自行编译。例如,webrtcvad Python 包装器仅包含 VAD C 源

WebRTC VAD API 非常易于使用。首先,音频必须是单声道 16 位 PCM,采样率为 8 KHz、16 KHz 或 32 KHz。发送到 VAD 的每个音频帧的长度必须为 10、20 或 30 毫秒。

下面是一个示例的概要,假设 audio_frame 是 16000 Hz 时长 10 毫秒(320 字节)的音频:

#include "webrtc/common_audio/vad/include/webrtc_vad.h"
// ...
VadInst *vad;
WebRtcVad_Create(&vad);
WebRtcVad_Init(vad);
int is_voiced = WebRtcVad_Process(vad, 16000, audio_frame, 160);

Google's open-source WebRTC code has a VAD module written in C. It uses a Gaussian Mixture Model (GMM), which is typically much more effective than a simple energy-threshold detector, especially in a situation with dynamic levels and types of background noise. In my experience it's also much more effective than the Moattar-Homayounpour VAD that Gilad mentions in their comment.

The VAD code is part of the much, much larger WebRTC repository, but it's very easy to pull it out and compile it on its own. E.g. the webrtcvad Python wrapper includes just the VAD C source.

The WebRTC VAD API is very easy to use. First, the audio must be mono 16 bit PCM, with either a 8 KHz, 16 KHz or 32 KHz sample rate. Each frame of audio that you send to the VAD must be 10, 20 or 30 milliseconds long.

Here's an outline of an example that assumes audio_frame is 10 ms (320 bytes) of audio at 16000 Hz:

#include "webrtc/common_audio/vad/include/webrtc_vad.h"
// ...
VadInst *vad;
WebRtcVad_Create(&vad);
WebRtcVad_Init(vad);
int is_voiced = WebRtcVad_Process(vad, 16000, audio_frame, 160);
走走停停 2024-10-31 12:11:32

Sphinx 和 Freeswitch 项目中有开源实现。我认为它们都是基于能量的探测器,不需要任何类型的模型。

狮身人面像 4 (Java 但应该很容易移植到 C/C++)

PocketSphinx

自由切换

There are open source implementations in the Sphinx and Freeswitch projects. I think they are all energy based detectors do won't need any kind model.

Sphinx 4 (Java but it should be easy to port to C/C++)

PocketSphinx

Freeswitch

原野 2024-10-31 12:11:32

LibVAD 怎么样? www.libvad.com

看来这正是您所描述的。

披露:我是 LibVAD 背后的开发人员

How about LibVAD? www.libvad.com

Seems like that does exactly what you're describing.

Disclosure: I'm the developer behind LibVAD

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文