语音加强

✍ dations ◷ 2025-07-21 23:49:41 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 妇科学人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学妇科学是一门研究女性在非孕期生殖系
  • 邓州市邓州市古称“邓”或“穰”,是中国河南省南阳市代管的一个县级市,邓州在河南省是省直管县之一,总面积约2300平方公里,地处南阳盆地中南部,位于河南省西南部,河南省和湖北省交界部位
  • 深圳北理莫斯科大学深圳北理莫斯科大学(俄语:Университет МГУ-ППИ в Шэньчжэне),简称深北莫,位于中华人民共和国广东省深圳市龙岗区,2017年正式招生,是深圳市人民政府、北
  • 农林水产大臣农林水产大臣(日语:農林水産大臣/のうりんすいさんだいじん Nōrin suisan daijin),简称农水相或农相,是日本的国务大臣,为农林水产省的最高长官。农林水产大臣管辖日本农林水产行
  • 船旗海上用旗是指在船只或其他水上交通工具上专用的旗帜。对船只而言远洋航行中悬挂的旗帜很重要,表明船只为船籍国(英语:Flag state)的管辖权范围,并且在国际法规中有严格规定。船只
  • 奥肯法则奥肯法则(Okun's Law)指的是经济增长率与失业率之间的交替关系,即经济增长率越高,失业率就越低。就业水平取决于社会总产出。社会总产出越多,其所要求的劳动力投入也就越多。具体
  • 四硫化四砷四硫化四砷是一种无机化合物,化学式为As4S4。它在自然界中以雄黄的矿物形式存在。可溶于碱金属硫化物或氢氧化物溶液中。在空气中可氧化为三硫化二砷和三氧化二砷。四硫化四
  • 安德拉兹·斯特鲁纳安德拉兹·斯特鲁纳(斯洛文尼亚语:Andraž Struna;1989年4月23日-)是一位斯洛文尼亚足球运动员,在场上的位置是后卫。他现在效力于希腊足球超级联赛球队基亚尼拿体育会。他也代表
  • 鿎石街道.mw-parser-output ruby.zy{text-align:justify;text-justify:none}.mw-parser-output ruby.zy>rp{user-select:none}.mw-parser-output ruby.zy>rt{font-feature-settings:
  • 马西娅·盖伊·哈登马西娅·盖伊·哈登(英语:Marcia Gay Harden,1959年8月14日-),美国女演员。2000年,马西娅·盖伊·哈登以《波拉克與他的情人》(Pollock)获得奥斯卡最佳女配角奖。2009年,马西娅·盖伊