语音加强

✍ dations ◷ 2025-04-03 12:46:21 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 犹他-阿兹特克语系犹他-阿兹特克语系(Uto-Aztecan languages)是一个美洲原住民语言的语系。犹他-阿兹特克语系主要分布在北美大盆地地区(Great Basin)的美国俄勒冈州、爱达荷州、犹他州、加州、内
  • 星系自转问题星系自转曲线(英语:Galaxy rotation curve)可以绘制成以恒星或气体的轨道速度为y轴,相对于至核心距离为x轴的图表。恒星围绕星系核心公转的速度在从星系核心开始的一个大范围的
  • 短篇小说短篇小说是一种文学作品,一般以万言左右为界限。虽然小说本质上篇幅区别并不十分重要,但典型的短篇小说仍发展出较长篇小说不同的特点。如:短篇小说长于描绘极具戏剧性的情节;往
  • 687号《联合国安理会687号决议》是1991年4月3日在联合国安理会的第2981次会议上通过的。导致第687号决议的事件是此前伊拉克对科威特的侵略,此后的海湾战争和科威特的解放。安理会
  • 民生必需品民生必需品指满足人类基本生活需求的商品,其范围主要涉及衣、食、住、行。拥有或可以利用民生必需品,作为一个人的基本生存才可以得到保障。民生必需品可以分几类:
  • 1948年美国总统选举哈里·杜鲁门 民主党哈里·杜鲁门 民主党1948年美国总统大选举行于1948年11月2日星期二,是美国历史上的第41次总统大选,也是美国历史上最富戏剧性的大选之一。在任总统哈里
  • 艾伦·斯班林艾伦·斯班林(英语:Aaron Spelling,1923年4月22日-2006年6月23日)是一位美国电影和电视剧制片人。截至2009年,斯班林的同名制作公司斯班林电视(Spelling Television)保持了最多产编
  • 百里香百里香(学名:)是唇形科百里香属的一个种,原产青海、甘肃、陕西、山西、河北、内蒙古、蒙古以及西伯利亚。
  • 全富岛全富岛,越方称之为�花岛(越南语:Đảo Ốc Hoa/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKS
  • 小蛸枕见内文小蛸枕(学名:)是一属已灭绝的海胆,其化石分布在非洲、南极洲、欧洲及北美洲,它们是白垩纪海胆最高级形式的一种。这种心海胆的后部是尖的,并有突出的前部凹口。五条花瓣状步