梅尔频率倒谱系数

✍ dations ◷ 2025-11-30 15:23:04 #信号处理

在声音处理领域中，梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。

梅尔频率倒谱系数 (Mel-Frequency Cepstral Coefficients，MFCCs)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(cepstrum)。倒谱和梅尔频率倒谱的区别在于，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示，可以在多个领域中使声音信号有更好的表示。例如在音讯压缩中。

梅尔频率倒谱系数（MFCC）广泛被应用于语音识别的功能。他们由Davis和Mermelstein在1980年代提出，并在其后持续是最先进的技术之一。在MFCC之前，线性预测系数（LPCS）和线性预测倒谱系数（LPCCs）是自动语音识别的的主流方法。

MFCC通常有以下之过程:

声音信号是连续变化的，为了将连续变化信号简化，我们假设在一个短时间尺度内，音频信号不发生改变。因此将信号以多个采样点集合成一个单位，称为'''讯框'''。一个讯框多为20-40毫秒，如果讯框长度更短，那每个讯框内的采样点将不足以做出可靠的频谱计算，但若长度太长，则每个讯框信号会变化太大。

预强化的目的就是为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分。并且能突显高频的共振峰。

由于信号在时域上的变化通常很难看出信号的特性，所以通常透过傅里叶变换将它变换成频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。

由于能量频谱中还存在大量的无用讯息，尤其人耳无法分辨高频的频率变化，因此让频谱通过梅尔滤波器。梅尔滤波器，也就是一组20个非线性分布的三角带通滤波器（Triangular Bandpass Filters），能求得每一个滤波器输出的对数能量。必须注意的是：这 20 个三角带通滤波器在'''梅尔刻度'''的频率上是平均分布的。梅尔频率代表一般人耳对于频率的感受度，由此也可以看出人耳对于频率 f 的感受是呈对数变化的。

http://i.stack.imgur.com/YUH48.gif 页面存档备份，存于互联网档案馆

最后的步骤是计算对数滤波器的能量的离散傅里叶反变换，在此相当于离散余弦反变换(IDCT)。值得注意的是，虽然通常的会有24-26个系数，但我们只保留前12个系数。这是因为丢弃高倒频域值的DCT系数，代表一个类似低通滤波器的概念，可以使信号平滑化，能增进语音处理的性能。

在此过程中可以有很多变化，例如，映射时的窗口的形状和间距。 The 欧洲电信标准协会在2000年初定义了一个可以用在移动电话上的标准MFCC算法.

1.对该信号做傅里叶变换
X=FT{x}
2.根据下面公式算出Y
$Y=\log \left(\sum _{k=f_{m-1}}^{f_{m+1}}\left|X\right|^{2}B_{m}\right)$ $Y=\log \left(\sum _{k=f_{m-1}}^{f_{m+1}}\left|X\right|^{2}B_{m}\right)$

其中 $B_{m}$ $B_{m}$ 是梅尔频率倒频谱的遮罩

$B_{m}={\begin{cases}0&{\mbox{for }}k<f_{m-1}{\mbox{ and }}k>f_{m+1}\\{\cfrac {k-f_{m-1}}{f_{m}-f_{m-1}}}&{\mbox{for }}f_{m-1}\leq k\leq f_{m}\\{\cfrac {f_{m+1}-k}{f_{m+1}-f_{m}}}&{\mbox{for }}f_{m}\leq k\leq f_{m+1}\end{cases}}$ $B_{m}={\begin{cases}0&{\mbox{for }}k<f_{m-1}{\mbox{ and }}k>f_{m+1}\\{\cfrac {k-f_{m-1}}{f_{m}-f_{m-1}}}&{\mbox{for }}f_{m-1}\leq k\leq f_{m}\\{\cfrac {f_{m+1}-k}{f_{m+1}-f_{m}}}&{\mbox{for }}f_{m}\leq k\leq f_{m+1}\end{cases}}$

3.对Y做IDCT得 $c_{x}$ $c_{x}$
因为Y是偶函数,故用IDCT(反离散余弦变换)取代IDFT(反离散傅里叶变换)
$c_{x}={\frac {1}{M}}\sum _{m=1}^{M}Ycos\left({\cfrac {\pi n(m-1/2)}{M}}\right)$ $c_{x}={\frac {1}{M}}\sum _{m=1}^{M}Ycos\left({\cfrac {\pi n(m-1/2)}{M}}\right)$

与原倒频谱的差异
一.log里面因为使用了sum,故等于0的几率变小
二.避免了相位的问题
三.使用IDCT取代IDFT,减少了运算量
四. $B_{m}$ $B_{m}$ 随着频率的增加而增宽,该特性符合人类听觉,更适合用来描述语音特征

MFCC主要作为语音识别系统中的特征，这样的系统可以自动识别语音中的数字内容。MFCC同样也用于说话人识别（英语：Speaker Recognition），该技术尝试通过语音该鉴别说话人。

MFCC也被用于语音信息检索（英语：music information retrieval）领域，如流派分类(genre classification)、音频相似性计算等。

比起倒频谱,梅尔倒频谱更接近人耳对于语音的区别性(因为遮罩 $B {\displaystyle B}$ $B$ )
用 $c_{x},c_{x},...,c_{x}$ $c_{x},c_{x},...,c_{x}$ ,MFCCs的前13项足以描述语音特征

MFCC特征在加性噪声的情况下并不稳定，因此在语音识别系统中通常要对其进行归一化处理(normalise)以降低噪声的影响。一些研究人员对MFCC算法进行修改以提升其强健性，如在进行DCT之前将log-mel-amplitudes提升到一个合适的能量(2到3之间)，以此来降低低能量成分的影响.

相关

异氟烷异氟醚（或称异氟烷，英文Isoflurane，商品名Forane），是种常用的全身麻醉药，可用于诱导或维持麻醉。但受制于异氟醚对气管的刺激性，一般会用其他药物诱导麻醉。异氟醚的给药方式为吸入
星期三星期三，又称礼拜三或周三。是指一周中星期二之后、星期四之前的那一天。星期三是一周的第四天，星期三的拉丁语名字是dies Mercurii，即水星日或墨邱利日；法语是mercredi，西班牙语
硬焊硬焊（英语：brazing）是一种焊接方式，将熔点低于欲连接工件之熔填料（钎料）加热至高于熔点，使之具有足够的流动性，利用毛细作用充分填充于两工件间（称为浸润），并待其凝固后将二者接合起来
2010年2010年被中华人民共和国处决的死刑犯列表，旨在列出2010年被中华人民共和国处决的死刑犯。
北海道国际航空Air Do（日语：エア・ドゥ Eadō */?），原名“北海道国际航空”（北海道国際航空／ほっかいどうこくさいこうくう Hokkaidō Kokusai Kōkū ?），是一家日本航空公司，总部设于北海道札
F-117F-117“夜鹰”（英语：F-117 Nighthawk）是美国空军的一种隐身战斗攻击机，也是世界上第一款完全以隐形技术设计的飞机。F-117由洛克希德公司设计生产，它的原型技术直接来源于拥蓝（英
法国政党列表法国属于多党制，没有一个政党能独自取得政权，必须由多个政党共同组成联合政府。自1980年代起，法国一直由两个较为稳定的政党联盟执政：在这两大阵营以外的政党很难获得显著的胜利
基雅·梅尔弗顿基雅·梅尔弗顿（英语：Kiah Melverton，1996年11月5日－）生于昆士兰州南港，是一名澳大利亚女子游泳运动员，主攻中长距离自由泳，所属俱乐部是TSS Aquatics。她一开始从事的是冲浪救生运
韩有为韩有为（1943年2月18日－），男，回族，宁夏平罗人，中华人民共和国政治人物，曾任宁夏回族自治区人大常委会副主任，第八、九届全国人大代表。
恩·韦捷马阿恩·韦捷马阿（1936年6月20日－2017年3月28日）爱沙尼亚小说家，诗人，作品被称为“遗忘的经典”韦捷马阿被认为是爱沙尼亚现代主义短篇小说的非官方大师。韦捷马阿出生于塔林的一个