从一种 MFCC 类型转换为另一种 - HTK

发布于 2024-11-27 05:22:07 字数 934 浏览 11 评论 0原文

我正在使用 HTK 工具包执行单词识别任务，并且有一个经典的训练和测试数据不匹配的情况。训练数据仅包含“干净”（通过麦克风记录）数据。数据被转换为 MFCC_E_D_A 参数，然后由 HMM 建模（手机级）。我的测试数据是通过固定电话和手机渠道记录的（导致失真等）。将 MFCC_E_D_A 参数与 HVite 结合使用会导致输出不正确。我想利用带有 MFCC_E_D_A_Z 参数的倒谱均值归一化，但它没有多大用处，因为 HMM 不是用这些数据建模的。我的问题如下：

有什么方法可以转换 MFCC_E_D_A_Z 为 MFCC_E_D_A 吗？这样我就按照这样的方式： input -> MFCC_E_D_A_Z -> MFCC_E_D_A-> HMM 对数似然计算。
有没有办法将现有的模型MFCC_E_D_A参数的HMM转换为MFCC_E_D_A_Z？

如果有办法执行上面的 (1)，那么 HCopy 的配置文件会是什么样子？我编写了以下 HCopy 配置文件进行转换：
<代码> 源格式 = MFCC_E_D_A_Z
目标种类 = MFCC_E_D_A
目标率 = 100000.0
压缩保存 = T
保存CRC = T
窗口大小 = 250000.0
乌塞汉明 = T
PREEMCOEF = 0.97
数量 = 26
CEPLIFTER = 22
NUMCEPS = 12
ENORMALISE = T

这不起作用。我该如何改进这个？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

臻嫒无言 2024-12-04 05:22:07

您需要了解电话录音具有另一个频率范围，因为它们被剪辑在通道中。通常存在 200 至 3500 Hz 的频率范围。宽带声学模型在 100 到 6800 的范围内进行训练。它不会可靠地解码电话语音，因为电话语音错过了 3500 到 6800 所需的频率。它与特征类型或平均归一化或失真无关，你只是不能这样做您需要

在转换为 8khz 的音频上训练原始模型，或者至少修改滤波器组参数以匹配电话频率范围。

回复收藏 0 原文

~没有更多了~