语音加强

✍ dations ◷ 2025-02-24 00:37:00 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • Smsub2/subOsub3/sub三氧化二钐(化学式:Sm2O3 ),又称氧化钐(Ⅲ),是钐的氧化物。三氧化二钐可借由直接加热钐至150℃时制得:4 Sm + 3 O2 → 2 Sm2O3三氧化二钐也可借由加热碳酸钐、硝酸钐、草酸钐后制得
  • 克利奥帕特拉七世克利奥帕特拉七世(笃爱父亲者)(希腊语:Κλεοπάτρα Φιλοπάτωρ,又译克娄巴特拉七世、克利欧佩特拉七世、克丽奥佩特拉七世;前69年-前30年8月12日),世称“埃及艳后”或
  • 小五台山国家级自然保护区南山区(原名赵家蓬区,2004年更名),是河北省张家口市涿鹿县的县辖区,也是中华人民共和国唯一现存的县辖区。区公所驻河东镇赵家蓬村。南山区是革命老区,将领冯玉祥部、狼牙山五壮士
  • 土用丑日土用丑日或土用丑之日(日语:土用の丑の日/どようのうしのひ )是土用(日语:土用)(伏天,时间为夏至后第三个庚日后的三四十天,是一年中最热的时候)之间的丑日。一年有4次土用,春、夏、秋
  • 德意志统一德意志统一发生于1871年1月18日。法国于普法战争中战败投降之后,德意志诸侯于此日来到法国凡尔赛宫镜厅,普鲁士国王威廉加冕为德意志皇帝,德意志诸国正式在政治上和行政上统一
  • 加泰罗尼亚加泰罗尼亚(加泰罗尼亚语:Catalunya;西班牙语:Cataluña;奥克语:Catalonha)是位于伊比利亚半岛东北部的地区,为西班牙的自治区之一,首府巴塞罗那,下辖巴塞罗那、莱里达、赫罗纳、塔拉
  • 沙斯塔-三一国家森林沙斯塔-三一国家森林(英语:Shasta–Trinity National Forest)位于美国加利福尼亚州北部,由美国国家森林局管理,内有五片原野,面积2,210,485英亩(894,552公顷),是加利福尼亚州最大的国
  • 竹内栖凤竹内栖凤(たけうち せいほう、1864年12月20日(元治元年11月22日) - 1942年(昭和17年)8月23日)是一位日本画家。竹内栖凤是近代日本画先驱、也是第二次世界大战前京都画坛代表人物,
  • 樱木港樱木港(桜木みなと,12月27日)日本神奈川县横滨市人,宝冢歌剧团宙组男役。艺名来自故乡的樱木町(日语:桜木町)与横滨港。高中时就读于县立神奈川综合高中。身高170公分,血型AB型。昵
  • 24K魔幻 (专辑)《24K魔幻》(英语:24K Magic)为美国歌手布鲁诺·马尔斯第三张录音室专辑,于2016年11月18日透过大西洋唱片发行。歌曲至今发行两首单曲,包括专辑的同名歌曲《24K魔幻》以及美国告