将Melspectrogram归一化为（0，255），或者没有频率缩放

发布于 2025-02-11 17:46:09 字数 240 浏览 1 评论 0原文

我将多个日志频谱图从.wav文件转换为图像。我想破坏尽可能少的信息，以便将结果图像用于计算机视觉任务。要将数据转换为图像格式，我当前使用简单的sklearn.minmaxscaler（（（0，255））。为了适应这个缩放器，我在所有频谱图上都使用所有频率的最小和最大能量。

我是否应该以每个特定频率的最小和最大能量来缩放频谱图？

具有不同缩放功能的不同频率是有意义的吗？

需要登录才能够评论，你可以免费注册一个本站的账号。

昇り龍 2025-02-18 17:46:09

由于其偏斜，非正常的分布性质，频谱图用作计算机视觉算法的输入（特别是神经网络）非常棘手。要解决这个问题，您应该：

对输入进行归一化：使用简单的日志（1+C）（第一个选项）或Box-Cox转换（第二个选项）转换值，该值应扩展低值并压缩高值分布更多的高斯。
然后将转换的值带入适合您用例的间隔。对于CNN，MinMaxScaler应该足够好，但是将间隔更改为[0，1]，即sklearn.minmaxscaler（（（0，1））。对于经典的计算机视觉，这可以是sklearn.minmaxscaler（（（0，255））

so，