语音加强

✍ dations ◷ 2025-05-20 08:42:46 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • ICD-9编码列表 (580–629)医学导航:泌尿系统解剖/生理/发育/细胞病理/酸碱/先天/肿瘤、症状/齐名、尿液手术/注射、药物(G4B)、血检、尿检
  • UTC+12UTC+12:00时区包含以下区域:
  • 总界在生物分类学中,域(英语:domain、superkingdom、empire、拉丁语:regio)是美国生物学家卡尔·沃斯1990年设计的三域系统中最高的分类单元,该系统中,生命之树(英语:Tree of life (biolo
  • 基地台基站(Base Station,缩写BS,又称基地台)是固定在一个地方的高功率多信道双向无线电发送机。它们典型的被用于低功率信道双向无线通讯,如移动电话、手提电话和无线路由器。用手机打
  • 第二舰队第2舰队为旧大日本帝国海军之一部队。排除因华盛顿海军条约1921年度1年间受到大量废舰之约制及第1舰队为常设舰队之影响,第二舰队为1903年创设开始到1945年坏灭间之常时编制
  • 约翰·斯托克顿约翰·休斯敦·斯托克顿(英语:John Houston Stockton,1962年3月26日-),美国NBA联盟职业篮球运动员,司职控球后卫,1984至2003年间为犹他爵士队效力长达十九赛季,NBA效力单一球队球季数
  • 要敢于认识要敢于认识( 拉丁语:Sapere aude)拉丁短语的意思是“敢于知道!” 这句话最初用于罗马诗人霍拉蒂乌斯的书信(公元前20年),被引用为启蒙的座右铭, 由伊曼纽尔康德 在“启蒙的回答” (17
  • 福塔莱萨福塔莱萨(葡萄牙语:Fortaleza),又译作福塔雷萨,该名称为葡萄牙语“堡垒”之意。福塔莱萨是巴西北部重要经济城市。塞阿腊州政府所在地及重要港口。2018年都会区人口约400万人,被认
  • 泵动式泵动式(Pump-action),是一种枪的运作方式。通过一根与外裹护木相连的传动杆连接由射击者直接驱动枪机前后运动,从而完成射击循环的运作方式。在使用泵动式枪时,应先扣下扳机。待
  • 宽带斑捻螺宽带斑捻螺(学名:)为捻螺科斑捻螺属的动物。分布于日本以及中国大陆的南海海域、海南等地,属于暖水性种。其常见于潮间带-潮下带浅水区砂质底。