当前位置：文江博客文章教程详情

WebAudio 数字化音频

发布于 2022-01-07 21:11:39 字数 3390 浏览 1190 评论 0

声音的数字化即是通过采样、量化、编码，把模拟信号的音源表示成由 0/1 组成的二进制数据，所以数字音频是不连续的。

声音是怎么产生的

声音是一种压力波：当演奏乐器、拍打一扇门或者敲击桌面时，他们的振动会引起介质——空气分子有节奏的振动，使周围的空气产生疏密变化，形成疏密相间的纵波，这就产生了声波，这种现象会一直延续到振动消失为止 —— 百度百科

图片来自 WebAudio Book - Oreilly

PCM 编码

PCM（Pulse Code Modulation） 即脉冲编码调制，是把模拟信号转换成数字信号的一种技术，主要有三个过程：采样、量化、编码。

采样即按照一定的频率(每隔一段时间)去采集一次模拟信号的值。

量化就是把采集到的数据转换为二进制数据，量化精度就是每个采样点能表示的数据范围，一般量化精度有 4bit, 8bit, 16bit... 也就是能存储 2^4, 2^8, 2^16... 个不同的值。量化精度的大小影响到声音的质量，位数越多，量化后的波形越接近原始波形，声音的质量越高，需要的存储空间也越多。

PCM 的两个重要指标是采样频率和量化精度，常见的 CD 音频的采样频率是 44.1KHZ，采样位数为 16bit。下图是一个把模拟信号转换至 4bit PCM 的取样和量化：

图片来自脉冲编码调制 - Wikipedia

在想想平时我们听歌的过程，实际就是播放器读取文件中(MP3, WAV, WMA...) 的音频数据，经过解码得到 PCM 数据；相反在录音的时候就是音频驱动不断的采样得到 PCM 数据再完成压缩存储。

PCM 把声音就转化为一个很长很长的数组(在 web audio 中，这个数组被抽象为 AudioBuffer)，所以原始数据是非常大的，因此音频通常会压缩处理。

压缩分为无损和有损：无损压缩(如 FLAC/ALAC) 保证了在压缩和解压缩的过程中，数值不会改变；有损压缩(如 MP3) 则会去除一些无用的数据。

通常使用比特率 bit rate 作为一种数字音乐压缩效率的参考性指标，表示播放音频时每秒的传输量，比如音乐文件常使用 128Kbps，当然我们可以随意指定 bit rate 进行压缩，假如一个 128Kbps 的3分钟音频，其文件大小就是 128K * 3 * 60 / 8 = 2880KB = 2.8125MB