VocaListener

✍ dations ◷ 2025-09-13 13:50:39 #VocaListener

VocaListener(简称ぼかりす)是一个自动测定用户歌声的语音合成参数的系统,可以简单地把输入的歌声转换成另一种风格或声质的技术。技术分为三部分:一是合成歌声模仿目标歌声的核心技术“VocaListener-core”,二是编辑目标歌声的技术“VocaListener-plus”,三是分析歌声的技术“VocaListener-front-end”。主要由中野伦靖和后藤真孝参与研究,先后以VOCALOID 2的初音未来、镜音铃、连、GACKPOID和VOCALOID的MEIKO、KAITO作研究测试,采用的原因是因为产品已发放于市场,较容易入手。而音乐采用RWC研究用音乐数据库(流行音乐)(RWC-MDB-P-2001)。研究目的是希望可以做到轻易合成高品质的歌声,从而探索动听歌声的技巧,并在歌唱中得知人类个人的知觉。

技术早于2006年8月已进行研究。最初于2008年4月28日公开,于NICONICO动画上载音乐软件初音未来版本的《PROLOGUE (页面存档备份,存于互联网档案馆)》,歌曲原唱为声优绪方智美。但最初只是写作简称“ぼかりす”,并没有正式发表技术,是一个试验性质的公开。当时正值初音未来热潮后不久,其极为自然、非常接近人类的歌声大大超越初音未来平常歌曲的水准而被称为“神调教”(把初音未来的歌曲调整得十分自然之意),更引起一段短暂对新技术真相的猜测。同年5月2日承认“ぼかりす”就是VocaListener。在5月28日的第75回音乐资讯科学研究会 (页面存档备份,存于互联网档案馆)正式发表。6月6日再公开镜音铃版本的《Game of Love (页面存档备份,存于互联网档案馆)》,歌曲原唱为吉井弘美。9月22日再同时公开KAITO、MEIKO、初音未来、镜音铃、连ACT2、GACKPOID和合唱版本的演歌《大渔船》,2009年2月6日再公开巡音流歌的版本,歌曲原唱为西一男。4月27日开始Yamaha的“Netぼかりす”Alpha版测试,只提供部分功能。

系统先以VocaListener-front-end分析目标歌声和歌词,辨认音高、音量、歌词等,再由用户以VocaListener-plus编辑修正,其后以VocaListener-core分析歌声并加以合成,反复测定音高、音量、歌词等的相似度,由用户加以微调,最后得到合成歌声的参数。

这是合成歌声模仿目标歌声的核心技术,由歌声分析、歌声合成、反复的合成参数更新三种要素组成。歌声分析的对象不止目标歌声,亦会对合成后的歌声作出分析,但分析的使用技术Viterbi alignment会有辨认错误的问题,需要反复分析,务求两者的风格尽量相近。判定音高分为MIDI的音名数值和滑音斜率。在音名数值中,组合VOCALOID 2滑音斜率(PIT、Pitch Bend)和滑音斜率敏感度(PBS、Pitch Bend Sensitivity)最多可以做出高或低两个八度的滑音,而音名数值由以下数式选择(NoteNumber:音名数值、σ=0.03、t是音符长度。):

N o t e N u m b e r = n a r g m a x ( t e x p { ( n F 0 ( t ) ) 2 2 σ 2 } ) {displaystyle {NoteNumber}={overset {argmax}{n}}{{Big (}{sum _{t}exp}{{Big {}-{frac {(n-F_{0}(t))^{2}}{2sigma ^{2}}}{Big }}}{Big )}}}

而合成歌声是 F 0 s y n ( n ) ( t ) {displaystyle F0{overset {(n)}{syn}}(t)} 、目标歌声则是 F 0 o r g ( t ) {displaystyle F0_{org}(t)} 。经过重复计算而把两个数值不断更新,变得相似。把PIT和PBS转换为数式则是如此:

P b ( n + 1 ) ( t ) = P b ( n ) ( t ) + ( F 0 o r g ( t ) F 0 s y n ( n ) ( t ) ) {displaystyle {Pb}^{(n+1)}{(t)}={Pb}^{(n)}{(t)}+{{Big (}{{F0_{org}}(t)}-{F0{overset {(n)}{syn}}(t)}{Big )}}}

而音量测定上是使用相对数值,反复测定而得到从0至127的强弱(DYN、Dynamics)数值。

这是编辑目标歌声的技术,可以令歌声有更广阔的种类,但并非一定要使用。技术中分为两种类,分别是改变音高和改变歌唱风格的机能。前者的改变音高,用途可以是修正走音,或可以合成原唱者不能唱出的音高。然而在音符较短的时候,可能会不能修正音高。后者可调整振音的强弱、音高、音量的平滑感,藉以改变歌唱风格,甚至加强歌唱的表现。

VocaListener-front-end则分为歌声分析及歌声合成,在歌声分析中需要从原歌声中抽出音高、音量、发音开始时间和音长。

f N o t e N u m b e r = 12 log 2 f H z 440 + 69 {displaystyle {fNoteNumber}={12}*{log _{2}}{frac {fHz}{440}}+{69}}

P o w ( t ) = r = t N / 2 t + N / 2 ( ( x ( r ) h ( r t ) ) 2 ) {displaystyle Pow(t)=sum _{r=t-N/2}^{t+N/2}{{Big (}{sqrt {(x(r)*h(r-t))^{2}}}{Big )}}}

相关

  • 埃德温·霍华德·阿姆斯特朗埃德温·霍华德·阿姆斯特朗(英语:Edwin Howard Armstrong,1890年12月18日-1954年1月31日),美国无线电工程师,调频广播技术的发明者。1913年毕业于哥伦比亚大学,1912年发明再生式振
  • KDE Partition ManagerKDE Partition Manager是一个自由软件的硬盘分割程序。它可用于创建、删除、调整大小、移动、检查和复制分区。这在创造新操作系统的空间、重组磁盘使用空间、复制硬盘的数
  • 马克·布热津斯基马克·弗朗西斯·布热津斯基 (英语:Mark Francis Brzezinski, 1965年4月7日-)是一位美国律师,2011年到2015年担任美国驻瑞典大使。他是美国国家安全顾问兹比格涅夫·布热津斯基的
  • 小鲤鱼跳龙门《小鲤鱼跳龙门》是一部中国上海美术电影制片厂制作的动画,根据鲤鱼跳龙门的民间传说改编。曾于1959年获得原苏联举办的第一届莫斯科国际电影节动画片银质奖。鲤鱼奶奶给小鲤
  • 霍尼亚拉国际机场霍尼亚拉国际机场(英文:Honiara International Airport,IATA代码:HIR;ICAO代码:AGGH)是一个位于所罗门群岛瓜达尔卡纳尔岛的机场,也是所罗门群岛中唯一的国际机场,距离首都霍尼亚拉8公里,前称亨德森机场,在第二次世界大战,由当时的日本人所建造,机场曾经作为瓜达尔卡纳尔岛战役双方互相争夺的基地。战后机场一度被放弃,后来重开为国际航点供旅游班机前往。国内线国际线
  • 37年
  • 圣卡齐米日市集圣卡齐米日市集(立陶宛语:Kaziuko mugė)是每年于立陶宛首都维尔纽斯举办的大型民间艺术和手工艺市集,可追溯至17世纪。传统上,该市集会于离3月4日圣卡齐米日节(Šv. Kazimiero dienos,圣卡齐米日的逝世纪念日)最近的星期日在市场和街道上举行,在立陶宛语中,Kaziukas是卡齐米日的指小词。圣卡齐米日市集还会有音乐、舞蹈和戏剧表演,吸引众多来自立陶宛各地和拉脱维亚、俄罗斯和波兰等邻国的游客和手工艺工匠。圣卡齐米日是波兰国王和立陶宛大公卡齐米日四世的儿子,于1521和1602年封圣
  • 莫尼·卡普坦莫尼·拉尔夫·卡普坦(英语:Monie Ralph Captan,1962年5月28日-)是利比里亚前外交部长,任期1996年至2003年,主要任职于总统查尔斯·泰勒所统领的政府部门。卡普坦的母亲是利比里亚人,父亲则为黎巴嫩裔。在担任外交部长以前,他是利比里亚的当地商人,经营独立报业,也在利比里亚大学授课。利比里亚内战爆发后,他的媒体倾向支持查尔斯·泰勒与泰勒所属的利比里亚全国爱国阵线(NPFL),发表有利于泰勒阵营的评论。泰勒获得胜选后,卡普坦便被任为外交部长。他是少数非泰勒阵营党员,却被委派高位的利比
  • 勇者斗恶龙怪兽篇 旅团之心《勇者斗恶龙怪兽篇 旅团之心》(日语:ドラゴンクエストモンスターズ キャラバンハート,Dragon Quest Monsters Caravan Heart)是角色扮演游戏勇者斗恶龙怪兽系列第三部作品,游戏由艾尼克斯发行在2003年3月29日发行于日本Game Boy Advance平台。游戏的消息由《Fami通》在2002年和《勇者斗恶龙VIII》的消息同时发布。和其它勇者斗恶龙作品类似,游戏由堀井雄二领衔开发。本作是继《特鲁尼克大冒险2》后第二个发行于Game Boy Advance的勇者斗恶龙游戏。
  • 说出她的名字#说出她的名字(英语:#SayHerName)是一场社会运动,旨在提高对美国警察暴力和反黑人暴力中黑人女性受害者的关注。黑人女性被警察拦截的可能性比白人女性高17%,被杀害的可能性高1.5倍。 #说出她的名字旨在强调致命的种族不公行为对黑人女性造成的巨大影响,从而改变公众的观念,即男性为警察暴力和反黑人暴力的受害主体。为了与现有的种族正义运动(如#黑人的命也是命(#BlackLivesMatter)和#黑人女孩的命也是命)一同构建一个庞大的社交媒体话题,非裔美国人政策论坛(英语:African Ameri