最佳语音压缩算法/格式

发布于 2024-07-06 11:09:48 字数 178 浏览 4 评论 0原文

我们有一些原始语音音频需要通过互联网分发。我们需要像样的品质，但不需要音乐品质。我们主要关心的是消费者的可用性（即他们可以玩什么游戏以及在哪里玩）以及下载的大小。我的经验表明，mp3 不能产生最佳的语音音频压缩数据，但我不知道最好的替代方案是什么。最终，我们希望实现转换过程的自动化，以允许消费者选择他们想要的质量与尺寸级别。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

野心澎湃 2024-07-13 11:09:48

您应该尝试一下Opus。压缩命令行示例：

ffmpeg -i x.wav -b:a 32k x.opus

You should give Opus a try. Example compression command line:

ffmpeg -i x.wav -b:a 32k x.opus

回复收藏 0 原文

在巴黎塔顶看东京樱花 2024-07-13 11:09:48

从这里开始。

正如您正确指出的那样，语音压缩不同于一般的音频压缩。您会发现许多专用于电话应用程序的编解码器，从 PCM 和 ADPCM 到后来的基于数据包的编码（例如 GSM 蜂窝网络上使用的 CELP）。

不过，由于所使用的媒介不同，VOIP 语音编码与语音编码略有不同。您可以在 Speex 中找到一个优秀的免费（无阻碍且开源 (BSD)）语音编码/解码库软件库。

同样，您选择的方式取决于您正在编码的语音及其传输的介质。另请注意，许多库都有多种可以根据情况使用的算法，有些甚至会根据声音和网络的条件即时切换。

要获得更多帮助，请缩小问题范围。

-亚当

回复收藏 0 原文

梦魇绽荼蘼 2024-07-13 11:09:48

现场语音音频（如 VoIP 电话）中最常用的压缩格式是 μ-Law（美国使用 mu-Law/u-Law）和 a-Law（欧洲等使用），与未压缩格式不同PCM，不支持如此宽的频率范围（较小范围的可能值会忽略必要频谱之外的声音，并且需要较少的存储空间）。

出于可用性考虑，最简单的方法是使用 mpeg 压缩 (mp2/3/4) 流式传输到标准媒体播放器，因为算法很容易获得，通常速度相当快，几乎所有媒体播放器都应该支持它，但对于语音，您可能会尝试指定较低的比特率或首先从较低质量的文件进行转换（WAV 可以采用多种采样率，而语音需要比音乐或效果低得多的采样率，它基本上就像视频上的每秒帧数）。或者，您可以使用 Real Media、WMA 或其他专有格式，但这会限制可用性，因为用户需要特定的第三方软件才能播放，尽管 WMA 具有出色的压缩比以及特定于语音音频的压缩选项。

回复收藏 0 原文

我做我的改变 2024-07-13 11:09:48

假设您的用户将运行 Windows，则可以将 WMA 语音压缩编解码器与 Windows Media Encoder SDK 一起使用。如果做不到这一点，您可以使用 ACM 来使用 G723/G728、ADPCM、mu-law 或 a-law 等，其中一些在 Windows XP 和 Windows 上作为标准安装。多于。这些可以打包在 WAV 文件中。您需要进行一些实验才能找到正确的比特率/质量（可能不必担心 mu-law 或 a-law）。对于语音数据，您可以使用相当低的采样率 - 例如 16000 或 8000，因为人类口语中没有太多高于 4Khz 的采样率。

回复收藏 0 原文