语音加强

✍ dations ◷ 2025-04-26 12:47:44 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 染色体倍性性别决定系统套数性别决定系统是一种特殊的性别决定系统。当中未受精的卵成为单套染色体的雄性,而受精卵则是成为双套染色体的雌性。采用此性别决定系统的昆虫有膜翅目(蚂蚁,蜜蜂,黄蜂)与缨翅
  • 怀孕分级怀孕分级(英语:Pregnancy category)是药物学中用来评估女性在怀孕期间服用药物对胎儿可能造成伤害的危险程度,但是在母乳中出现药物或是出现药物代谢物所可能造成的伤害则不包括
  • 速尿呋塞米(Furosemide),市面常见的商品名为来适泄锭(Lasix),系一种用来治疗因心脏衰竭、肝硬化或肾病变引起的水肿,也可治疗高血压的药。使用剂量依人而定,可以经静脉注射或口服给药,口
  • 石碑碑是指人为竖立的石块,通常刻有文字,具有一定用途,如记载事件、指示里程(里程碑)、划定边界(界碑)及作纪念用途(纪念碑)等。中国古代官员都有立碑的习惯,视为荣耀。唐朝的地方官若要立
  • ATC代码 (A01)A·B·C·D·G·H·QI·J·L·M·N·P·R·S·VATC代码A01(口腔病药物)是解剖学治疗学及化学分类系统的一个药物分组,这是由世界卫生组织药物统计方法整合中心(The WHO Collabor
  • 偏铝酸镁偏铝酸镁是一种无机化合物,化学式为Mg(AlO2)2或MgAl2O4。它可在镁、铝共同还原金属氧化物的时候产生,如:偏铝酸镁在自然界中以尖晶石的形式存在。偏铝酸镁可以和过量的酸反应而
  • 耶罗尼米斯·博斯耶罗尼米斯·博斯(Hieronymus Bosch,/ˌhaɪ.əˈrɒnᵻməs ˈbɒʃ/;荷兰语:Jheronimus Bosch),原名耶罗恩·安东尼松·范·阿肯(Jeroen Anthoniszoon van Aken;荷兰语:jeˈɾoːni
  • 第二回合我爱你编剧统筹 徐誉庭 协力编剧 毛训容、周平之、陈秋茹、谢秉勋宥胜、陈怡蓉刘丽惠、陈一俊《第二回合我爱你》(英文名:Lucky Days,意“幸运日”),最初定名为“Ctrl Z的后悔”、“幸
  • 乔治·约比乔治·约比(George Jobey,1886年?月?日-1962年5月?日)是一位英国足球员及足球主教练。约比生于泰恩河畔纽卡斯尔,年青时在莫珀斯(Morpeth)效力当地的球会,1906年才加入纽卡斯尔联。
  • 苏巴马廉苏巴马廉(泰米尔语:சுப்ரமணியம்;拉丁化:Subramaniam Sathasivam,1953年4月1日-),前马来西亚柔佛州昔加末国阵国大党国会议员,前任国大党主席 。曾担任卫生部长和人力资源