gpt4 book ai didi

deep-learning - 为什么 Mel-filterbank 能量在使用 CNN 的语音命令识别方面优于 MFCC?

转载 作者:行者123 更新时间:2023-12-03 14:15:46 24 4
gpt4 key购买 nike

上个月,一个叫@jojek 的用户在 comment 中告诉我以下建议:

I can bet that given enough data, CNN on Mel energies will outperform MFCCs. You should try it. It makes more sense to do convolution on Mel spectrogram rather than on decorrelated coefficients.



是的,我在 Mel-filterbank 能量上尝试了 CNN,它的表现优于 MFCC,但我仍然不知道原因!

虽然教程很多,比如 this一个来自 Tensorflow,鼓励将 MFCC 用于此类应用程序:

Because the human ear is more sensitive to some frequencies than others, it's been traditional in speech recognition to do further processing to this representation to turn it into a set of Mel-Frequency Cepstral Coefficients, or MFCCs for short.



另外,我想知道 Mel-Filterbank 的能量是否仅在 CNN 上优于 MFCC,或者对于 LSTM、DNN 等也是如此,如果您添加引用,我将不胜感激。

更新 1 :

虽然我对@Nikolay 的回答的评论包含相关细节,但我将在此处添加:

如果我错了,请纠正我,因为在这种情况下,对 Mel 滤波器组能量应用 DCT 等效于 IDFT,在我看来,当我们保留 2-13(包括)倒谱系数并丢弃其余部分时,是相当于低时间提升以隔离声道分量,并丢弃源分量(例如具有 F0 尖峰)。

那么,我为什么要使用所有 40 个 MFCC,因为我只关心演讲 命令识别模型是声道组件吗?

更新 2

另一个观点( link )是:

Notice that only 12 of the 26 DCT coefficients are kept. This is because the higher DCT coefficients represent fast changes in the filterbank energies and it turns out that these fast changes actually degrade ASR performance, so we get a small improvement by dropping them.



引用:

https://tspace.library.utoronto.ca/bitstream/1807/44123/1/Mohamed_Abdel-rahman_201406_PhD_thesis.pdf

最佳答案

问题是 MFCC 是通过简单的矩阵乘法和降维从梅尔能量计算出来的。矩阵乘法不会影响任何事情,因为任何其他神经网络之后都会应用许多其他操作。

重要的是尺寸的减少,而不是 40 mel 能量,你取 13 mel 系数,其余的都去掉。这会降低 CNN、DNN 或其他任何东西的准确性。

但是,如果您不放弃并仍然使用 40 MFCC,您可以获得与梅尔能量相同的准确度,甚至更高的准确度。

因此,MEL 或 MFCC 并不重要,重要的是您在特征中保留了多少系数。

关于deep-learning - 为什么 Mel-filterbank 能量在使用 CNN 的语音命令识别方面优于 MFCC?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60439741/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com