语音加强

✍ dations ◷ 2024-09-20 08:54:08 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 凯尔苏斯凯尔苏斯(英语:Aulus Cornelius Celsus),(前25年-50年)。生于提比略统治时期(公元14年至公元37年)。他著有一部涵盖多种主题的百科全书,前5卷与农业相关,但现仅存关于医学的八卷,被称为
  • 罹病率疾病是生物在一定原因的损害性作用下,因自稳调节紊乱而发生的异常生命活动过程,是特定的异常病理情形,而且会影响生物体的部分或是所有器官。一般会解释为“身体病况”(medical
  • 克里米亚半岛克里米亚半岛(又译克里木半岛;俄语:Кры́мский полуо́стров,罗马化:Krymskiy poluostrov;乌克兰语:Кримський півострів,转写:Krymskyi nivost
  • 专利地图专利地图(Patent Map)系指透过专利检索技巧,检索出与研究主题相关之专利资料,并以统计分析之方法,加以缜密及精细之剖析整理制成各种可分析、解读、以图表格式呈现之加值化专利资
  • 肛欲期肛欲期,又称肛门期,在佛洛伊德的性心理发展理论中,形容小孩过了口欲期,到了约18至36个月大的时候,感受到刺激肛门时带来的新奇感觉。在这时期会发现自己会产生粪便,而很兴奋,这时就
  • 深圳旅游观光景点列表深圳的旅游资源吸引了海内外大量游客来此观光度假休闲。由于深圳地处粤、港边境,再加上港澳个人游计划的参加者大多数在深圳出境,使不少出境的旅客都愿意花一点时间在深圳购物
  • SL-1SL-1(英语:Stationary Low-Power Reactor Number One,中文翻译为固定低功率反应堆1号),是美军的实验性核动力反应堆,1961年1月3日经历了蒸汽爆炸和堆芯熔毁,造成3名操作人员死亡。
  • 斯堪的那维亚半岛斯堪的纳维亚半岛(丹麦语:Skandinaviske halvø,瑞典语:Skandinaviska halvön,挪威语:Den skandinaviske halvøy,芬兰语:Skandinavian niemimaa),位于欧洲西北角,其濒临波罗的海、挪
  • 鼠蛛参见正文鼠蛛(英语:Mouse spiders,学名:)是蜘蛛目的一个属,属于猛蛛亚目线足蛛科()。目前已知有11种品种,大部分都生长于澳洲,只有一种名叫 的蜘蛛,被发现于智利。以往这种蜘蛛一直被
  • 黑田亚瑟黑田亚瑟(黒田アーサー,1961年2月1日-)是一名日本演员,生于美国旧金山。血型是O型。他毕业于明治大学,1982年、21岁时以电视剧“名犬高尔的冒险 胜利!加拿大”做为演员处女作。200