语音合成

✍ dations ◷ 2025-04-26 12:50:13 #语音合成
语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上,则称为语音合成器,而语音合成器可以用软/硬件所实现。文字转语音(Text-To-Speech,TTS)系统则是将一般语言的文字转换为语音,其他的系统可以描绘语言符号的表示方式,就像音标转换至语音一样。而合成后的语音则是利用在数据库内的许多已录好的语音连接起来。系统则因为储存的语音单元大小不同而有所差异,若是要储存phone以及diphone的话,系统必须提供大量的储存空间,但是在语意上或许会不清楚。而用在特定的使用领域上,储存整字或整句的方式可以达到高品质的语音输出。另外,包含了声道模型以及其他的人类声音特征参数的合成器则可以创造出完整的合成声音输出。一个语音合成器的品质通常是决定于人声的相似度以及语意是否能被了解。一个清晰的文字转语音程式应该提供人类在视觉受到伤害或是得到失读症时,能够听到并且在个人电脑上完成工作。从80年代早期开始,许多的电脑操作系统已经包含了语音合成器了。早在17世纪就有法国人研发机械式的说话装置。直到19世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在1939年制作出第一个电子语音合成器VODER,是一种利用共振峰原理所制作的合成器。 1960年,瑞典语言学家G. Fant则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来1980年代Moulines E和Charpentier F提出新的语音合成算法PSOLA,此技术可以合成比较自然的语音。这通常是使用字词预录的方式,将各字词的发音预先录制好,经处理后存放在数据库中。使用时再将预发音的字句断成字词,再把发音的资料自数据库中取出,交由DSP去处理发音的合成。

相关

  • 调理素调理素(英语:Opsonin,来源于希腊语:opsōneîn,意思是准备进食),是通过标记免疫应答抗原或标记死细胞用于再循环来增强吞噬作用的任何分子。调理吞噬作用(也称为调理作用)是一种分子
  • 情感障碍情感障碍,亦称情绪障碍、心境障碍、情感性疾患,是精神疾病诊断与统计手册(DSM IV TR) 中,对于诊断患疾的归类。此类患疾的特点在于人心情上的混乱不安。在国际疾病与相关健康问题
  • 平原印第安手语平原印第安人手语(英语:Plains Indian Sign Language,PISL;法语:Langue des Signes Indienne des Plaines;西班牙语:Lenguaje de Signos Indio de las Llanuras),又称平原手语、平原
  • 雨水扑满雨水收集(英语:Rainwater harvesting)又称雨扑满、雨水集蓄,是雨水的累积用于现场再利用而不是允许其流失。雨水可以从雨水收集或屋顶雨水收集器收集,或用网或其他工具从雾和露水
  • 非特异性抑郁障碍非典型忧郁症(Atypical Depression)属于慢性忧郁症(轻郁症)与忧郁症的亚型。非典型忧郁症患者与抑郁型忧郁(Melancholic depression)患者不同,前者能体验正面事物带来的心情改善,而
  • 心包膜心包,又名心膜,是一个圆锥形双层纤维浆膜囊,包裹心脏和出入心脏大血管根部。心包的两层分别为:心包的学名pericardium来自希腊语的περι(环绕、周围)与κάρδιον(心脏)两字
  • Hsub3/subPOsub3/sub亚磷酸,分子式 H3PO3,是磷的其中一种含氧酸,是二元弱酸。另外还有磷酸(H3PO4)和次磷酸(H3PO2)。亚磷酸的酸酐为三氧化二磷。H3PO3 以HP(O)(OH)2这种形式描述比较好。此物质会与P(OH
  • 难熔金属难熔金属是指特别耐热不易熔化,并且具有耐磨(英语:Wear)性的金属。此术语主要是用在材料科学、和冶金工程。这些元素在不同领域中的的定义方式有些不同。最常见的定义方式包括五
  • 隋末农民战争隋末民变是隋朝末年民变推翻隋朝统治的战争,战争从隋炀帝大业七年(611年)的王薄领导的长白山首义开始,到唐高祖武德七年(624年)辅公祏的反唐失败结束,前后历时14年。大业六年(610年)
  • 粮农组织联合国粮食及农业组织(法语:L'Organisation des Nations Unies pour l'Alimentation et l'Agriculture,缩写为ONUAA; 英语:Food and Agriculture Organization of the United Na