语音加强

✍ dations ◷ 2025-12-03 13:55:34 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 参数估计估计理论是统计学和信号处理中的一个分支,主要是通过测量或经验数据来估计概率分布参数的数值。这些参数描述了实质情况或实际对象,它们能够回答估计函数提出的问题。例如,估计
  • 胃蛋白酶原胃蛋白酶(英语:pepsin)是一种消化性蛋白酶,由胃部中的胃粘膜主细胞(gastric chief cell)所分泌,功能是将食物中的蛋白质分解为小的肽片段。胃蛋白酶的前体被称为胃蛋白酶原。1836年
  • 羊腩羊腩是广东人对羊腹部下侧肉,为秋季及冬季常见的食品,广东及港澳通常以柱侯酱及枝竹煮制成“羊腩煲”。
  • 科布豪厄尔·科布(Howell Cobb,1815年9月7日-1868年10月9日),美国政治家,美国民主党人,曾任美国众议院议员(1845年-1851年、1855年-1857年)、佐治亚州州长(1851年-1853年)和美国财政部长(185
  • 2009年美国复苏与再投资法案《2009年美国复苏与再投资法案》(英文:American Recovery and Reinvestment Act of 2009,缩写:ARRA),是2009年初新任美国总统巴拉克·奥巴马针对经济大衰退所提出的总额7,870亿美
  • 奥古斯特·斯特林堡奥古斯特·斯特林堡(瑞典语:August Strindberg,1849年1月22日-1912年5月14日)是一位瑞典作家、剧作家和画家,被称为现代戏剧创始人之一。斯特林堡是一位多产的作家,在其四十余年的
  • 妮可 (智利歌手)妮可(Nicole,1977年1月19日-),全名:Denisse Lilian Laval Soza,出生在智利圣地亚哥的歌手。她是流行音乐及摇滚乐作曲家,演员,模特儿,电台和电视艺人歌手。录音室专辑精选辑
  • 阿特姆·费德茨基阿特姆·费德茨基(乌克兰语:Артем Андрійович Федецький;1985年4月26日-)是一位乌克兰足球运动员,在场上的位置是右后卫。他现在效力于乌克兰足球超级联
  • 其米德·赛汗比勒格其米德·赛汗比勒格(蒙古语:Чимэдийн Сайханбилэг,1969年-),蒙古族,蒙古国东方省人,蒙古国政治家。赛汗比勒格1969年生于东方省。在乌兰巴托上完中学后,他来到莫
  • 田中武雄田中武雄(たなか たけお、明治24年(1891年)1月17日 - 昭和41年(1966年)4月30日)三重县出身的政治家。