在机器学习中处理可变长度音频

发布于 2025-02-04 03:01:39 字数 450 浏览 4 评论 0原文

我正在研究一个用于语音情感识别的模型，目前我处于预处理阶段，创建了一个可以将音频文件转换为固定尺寸的功能空间的实用程序。我正计划尝试使用光谱图，MEL-SPECTROGRAM和MFCC（包括Deltas和Delta-Deltas）作为卷积神经网络的输入特征。一个明显的问题是音频的长度可变。

现在，我知道处理此问题的典型方法是设置一定的长度，然后扩展所有音频文件以适合该长度或截断文件，但是我认为以前的方法是可取的，因为截断会丢失一些可能有价值的数据在培训中。因此，我打算用0s填充音频文件，以将其扩展到一些固定的长度。我在数据集中找到了音频文件的最大持续时间，然后拿起天花板以获得长度。现在，我打算添加尾随0（重新采样后，将其添加到固定采样率）以扩展所有音频文件以具有静态长度。

我的问题是，这些额外的维度不是可能使模型混淆吗？我知道神经网络会自动处理特征提取，但是我应该知道任何潜在的警告，还是也许有一些替代方法可以产生更好的结果？

谢谢。

原文

分享到QQ

分享到微博