梅尔倒频谱

✍ dations ◷ 2025-04-02 10:03:54 #信号处理

在信号处理中,梅尔倒频谱(Mel-Frequency Cepstrum, MFC)系一个可用来代表短期音频的频谱,其原理基于用非线性的梅尔刻度(mel scale)表示的对数频谱及其线性余弦转换(linear cosine transform)上。

梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)是一组用来创建梅尔倒频谱的关键系数。由音乐信号当中的片段,可以得到一组足以代表此音乐信号之倒频谱(Cepstrum),而梅尔倒频谱系数即是从这个倒频谱中推得的倒频谱(也就是频谱的频谱)。与一般的倒频谱不同 ,梅尔倒频谱最大的特色在于,于梅尔倒频谱上的频带是均匀分布于梅尔刻度上的,也就是说,这样的频带相较于一般所看到、线性的倒频谱表示方法,和人类非线性的听觉系统更为接近。例如:在音频压缩的技术中,便常常使用梅尔倒频谱来处理。

梅尔倒频谱系数通常是用以下方法得到的:

获取梅尔倒频谱的方法众多,上述只是其中一种。

另外,ETSI在2000年左右有定义一套专为移动电话设计的梅尔倒频谱系数算法。

梅尔倒频谱系数通常可以用于作为语音识别系统中的特征质观察,例如:可以自动辨认一个人透过电话说的数字。梅尔倒频谱系数通常也可以作为声纹识别(Speaker Recognition),也就是、用来识别某段语音频号的发话者是谁的技术。

梅尔倒频谱系数在近年来于音乐分类(music genre classification)相关应用的领域也逐渐崭露头角,例如查找一段音乐的相似程度等。

梅尔频率倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。

梅尔倒频谱系数并非相当稳定,在计算当中,一组系数其实相当容易受到外加的噪声影响;为了对抗噪声,通常会将梅尔倒频谱系数在语音辨认上进行正规化(normalization)的动作,以减少噪声造成的影响。

另外,有些研究者会将梅尔倒频谱系数基础的算法设计的更加顽强,例如:在进行馀弦转换前增加对数化梅尔系数的能量值至一个合适的范围,以减少诸如噪声等低能量项对于整个系数结果的影响。

一般认为Paul Mermelstein 是主要致力于发展梅尔倒频谱的人,然而 Mermelstein 本人却将主要的概念功劳归给 Bridle 和 Brown for the idea:

Bridle 和 Brown 运用了一组十九个、由余弦转换导出的频谱型的系数,转换的输入值是信号在一组在频带上有非均匀间隔分布的带通滤波器后的输出。

滤波器的间隔是呈现对数分布的;因此,一般称之为梅尔式的导频谱系数

通常此两组起源都会被人当作引用使用。

另外,许多作者包括Mermelstein都认为,梅尔倒频谱中这样以频谱为基准的余弦转换函数,非常接近早期用于语音表征和辨认、对对数化频谱进型的主成分分析;关于这部分相关的信息,可参考Pols和它同事的研究。

1. 对该信号做傅立叶变换


X = F T x {\displaystyle X=FT{x}}


2. 根据下面公式算出Y


Y = log ( k = f m 1 f m + 1 | X | 2 B m ) {\displaystyle Y=\log \left(\sum _{k=f_{m-1}}^{f_{m+1}}\left|X\right|^{2}B_{m}\right)}


其中 B m {\displaystyle B_{m}} 是梅尔频率倒频谱的遮罩


B m = { 0 for  k < f m 1  and  k > f m + 1 k f m 1 f m f m 1 for  f m 1 k f m f m + 1 k f m + 1 f m for  f m k f m + 1 {\displaystyle B_{m}={\begin{cases}0&{\mbox{for }}k<f_{m-1}{\mbox{ and }}k>f_{m+1}\\{\cfrac {k-f_{m-1}}{f_{m}-f_{m-1}}}&{\mbox{for }}f_{m-1}\leq k\leq f_{m}\\{\cfrac {f_{m+1}-k}{f_{m+1}-f_{m}}}&{\mbox{for }}f_{m}\leq k\leq f_{m+1}\end{cases}}}


3.对Y做IDCT得 c x {\displaystyle c_{x}} ,因为Y是偶函数,故用IDCT(反离散余弦变换)取代IDFT(反离散傅立叶变换)


c x = 1 M m = 1 M Y c o s ( π n ( m 1 / 2 ) M ) {\displaystyle c_{x}={\frac {1}{M}}\sum _{m=1}^{M}Ycos\left({\cfrac {\pi n(m-1/2)}{M}}\right)}


相关

  • 丁一丁一(1942年-2000年),女,北京人,生于河南郑州,中国演员,原郑州市话剧团演员。曾获得中国电影金鸡奖最佳女配角、中国电影金凤凰奖。
  • 堪察加拟石蟹堪察加拟石蟹(Paralithodes camtschaticus),又称为北海道帝王蟹、阿拉斯加帝王蟹、鳕场蟹,属于石蟹科的一种,和短足拟石蟹一样,堪察加拟石蟹并不是螃蟹,而是寄居蟹的亲戚物种,其外观
  • 埼玉县第1区埼玉县第1区是日本众议院的选区,设立于1994年。北海道 13 | 山形县 4 | 静冈县 9 | 岛根县 3 | 大分县 4福井县 3 | 山梨县 3 | 德岛县 3 | 高知县 3 | 佐贺县 3青森县 4 |
  • 锺兴锺兴(?年-?年),字次文,汝南汝阳(今河南省驻马店市)人,东汉左中郎将。锺兴年轻时师从少府丁恭,学习《严氏春秋》。丁恭以锺兴学问和操行都很崇高举荐他,汉光武帝召见锺兴,询问他经书的义理
  • 陈彝典陈彝典(1547年-?年),字元惇,四川德阳县人,云南永昌府腾冲卫官籍,治《礼记》,年二十五岁中式隆庆五年辛未科第三甲第三百一十名进士。六月十七日生,行一,曾祖陈镜;祖陈浩,寿官;父陈明礼,训导
  • 回忆三部曲《MEMORIES》(回忆三部曲)是大友克洋总监督的动画电影。以《她的回忆》、《最臭兵器》、《大炮之街》三部曲的形式制作。1995年公映。总长110分钟。《她的回忆》(彼女の想いで
  • 洪雅语洪雅语(拍瀑拉语:Hoanya),又译为和安雅语,为台湾西北部平埔族洪雅族所用的台湾南岛语言,归类在西部平原台湾南岛语族下。于2011年2月21日世界母语日联合国教科文组织发表世界各地
  • 吉拉德·笛沙格吉拉德·笛沙格(法语:Girard Desargues,1591年2月21日生于法国里昂,3月2日受洗,1661年10月卒于里昂),法国数学家和工程师,别名S.G.D.L. ,他署名Sieur Girard Desargues Lyonnois的缩
  • 叶星海叶星海(1870年-1929年),名炳奎,字星海,以字行。浙江镇海(今宁波镇海区)人。清朝末年天津大买办。早年家境贫寒,曾就职于上海美隆洋行,期间结识德国商人吉伯利,两人合伙在天津创办兴隆洋
  • 成明枢成明枢(16世纪-1620年代),字环伯,号元岳,山东兖州府曹州人,明朝政治人物。成明枢是万历三十四年(1606年)的举人,四十四年(1616年)成进士,获授太常寺博士,擢任吏科给事中,上疏饬饷九则、纠察