机器翻译史

✍ dations ◷ 2024-12-22 19:10:46 #机器翻译史
一般认为,机器翻译的历史始于1950年代。虽然相关理论和研究较早已经进行,但在1954年初的乔治城大学的实验,即电脑成功将四十多条俄文句子自动翻译成英文,是机器翻译史中的一个里程碑,标志着现代机器翻译的开端。美国也因此投入了大量资金研究机器翻译。上述实验的研究人员声称在三或五年内,机器翻译中遇到的语言逻辑的困难将会迎刃而解。苏联的研究人员随后也进行了类似的实验。然而,实际进展比预期慢得多。1966年,自动语音处理顾问委员会(Automatic Language Processing Advisory Committee, ALPAC)报告发现十几年来的研究未能达到预期的成果,而且认为机器翻译在短期内不会取得突破性进展。此报告一出,相关的研究经费大幅萎缩。直至80年代后期,由于电脑运算效能的提升及电脑成本的降低,研究的重心开始放在机器翻译统计模型上。至今仍没有一个程式系统能够达到—“全自动优质翻译任何文体”(fully automatic high quality translation of unrestricted text)的境界。 。然而,现在有很多程式在严格限制下能提供准确的翻译。其中有些是网络服务,如Google翻译和SYSTRAN系统。后者为AltaVista的BabelFish提供技术支援(BabelFish自2008年5月9日为雅虎所有)机器翻译的历史可追溯至十七世纪时,哲学家如莱布尼兹与笛卡尔提出代码字,把字和语言联系。但这些建议仍然是理论,没有发展成实际的机器。“翻译机”是20世纪 30年代中期一项专利发明。其中一项建议应用,由乔治阿氏罗利(Georges Artsrouni)提出,是一个使用纸带的自动双语词典。另一项建议则更详细,是由彼得(Peter Troyanskii),俄罗斯人提出。这既包括双语词典,和一个根据世界语,处理语言上语法之间的方法。系统被分为三个阶段:第一阶段是为一位能讲要翻译的来源语言的当地编辑去把文字组织成符合它们的逻辑形式和语法功能;第二阶段是让机器来“翻译”这些文字形式为要翻译的目标语言;以及第三阶段是给能讲当地要翻译的目标语言的编辑将这结果正常化。他的计划仍默默无闻,直至20世纪50年代末期,那时,电脑是众所周知的。时任洛克菲勒基金会的研究员的瓦伦韦弗(Weaver)于1949年7月,在他发表的名为“翻译”的备忘录提出了第一个机器翻译的构想。这些建议是基于信息论、第二次世界大战期间解码成功和对于普遍现象的推测而所构成的自然语言原则。这些建议在几年后,美国许多大学都开始认真研究。1954年1月7日,在纽约的IBM总公司,首次于Georgetown-IBM实验中公开展示MT系统。这次示范亦在报纸上获得广泛报导并引起公众的兴趣。然而今天,该系统只能被称为“儿戏的”系统,一共只有250字和49句经小心筛选的俄文句子翻译为英文 – 内容主要是化学方面的内容。尽管如此,它提出一个观点 – 机器翻译即将成为现实;同时,它不但刺激了美国,还有世界上许多国家对该项研究的资金投入。早期的机器翻译系统,乃透过使用大型双语词典和手动的编码法则来修正得出的语序,但此系统被发现有太多限制。而那时期语言学的发展,例如生成语言学和转换生成语法,都试图改善其翻译质素。在此期间,操作系统被安装。美国空军使用的系统是由IBM 和华盛顿大学生产,而位于美国的原子能委员会和于意大利的欧洲原子能组织使用的系统则是由乔治城大学所开发。尽管输出的质量是粗劣,它仍然满足了许多客户主要在速度方面的需求。在1950年代末,美国政府要求研究员野浩树洼·巴希里(Yehoshua Bar-Hillel)研究可否利用机器执行全自动高质量的翻译。野浩树洼(Yehoshua) 提出了一个论点。此论点是语义歧义或双重意义。试分析以下句子:Little John was looking for his toy box. Finally he found it. The box was in the pen.“Pen”这个词可以有两个含义,第一个含义指人们用来书写的工具,第二个含义指某种容器。对人而言,其含义显而易见,但他声称如果没有“万用百科全书”,机器将永远无法处理这个问题。现在,这类语义歧义可以通过编写受控的机器翻译语言源文,利用词汇的每个准确含义的单词来解决。美国与苏联于1960年代的研究,主要都集中在英文与俄文的语言配对翻译。翻译的主要对象是科学和技术上的文件,如科学期刊的文章。粗糙的翻译足以了解文章的基本内容。如果讨论的主题被视为是机密,它会被送往人类译者以取得完整的版本,不是的话则被舍弃。随着ALPAC报告的出版,机器翻译研究在1966年遭受了巨大的打击。该报告由美国政府委托,由自动语言处理咨询委员会ALPAC提供,该委员会由美国政府于1964年召集的七名科学家组成。美国政府感到关切的是,尽管支出费用庞大,却仍然未取得进展。该报告的结论是“机器翻译比人工翻译更昂贵、更不准确、速度更慢。而且尽管花费巨大,在不久的将来,机器翻译仍不太可能达到人工翻译的水平。”然而,该报告也建议开发一些工具来帮助翻译人员(例如自动词典),并应该继续支持某些计算语言学的研究。该报告的发表对美国的机器翻译研究产生了深远的影响,对苏联和英国的影响则较轻微。至少在美国,机器翻译的研究几乎完全被遗弃了十多年。然而,在加拿大、法国和德国,相关研究仍持续进行。在美国,主要的例外有Systran(彼得•托马创立)和Logos(伯纳德•斯科特创立),他们分别在1968年和1970年成立了自己的公司,并为美国国防部服务。1970年,美国空军安装了Systran系统,欧洲共同体委员会随后也在1976年安装。METEO系统是由蒙特利尔大学开发,并于1977年安装在加拿大,负责将天气预报从英语翻译成法语,在2001年9月30日被竞争对手的系统取代之前,METEO系统每天翻译近8万字,每年翻译近3000万字。20世纪60年代的研究集中在有限的语言配对和输入上,而1970年代受全球化的增长以及加拿大、欧洲和日本对翻译的需求影响,刺激了对低成本机器翻译系统的需求,目的是为了用于翻译一系列技术和商业文件。到20世纪80年代,用于机器翻译的安装系统的多样性和数量都有所增加。许多依赖大型计算机技术的系统正在使用,例如Systran、Logos、Ariane-G5和Metal。由于微型计算机可用性的提高,开始有了低端机器翻译系统市场。欧洲、日本和美国的许多公司都利用了这一点。系统也被带到中国、东欧、韩国和苏联市场。20世纪80年代,日本的MT活动非常活跃。随着第五代计算机的计划,日本打算在计算机硬件和软件方面超越竞争对手,许多大型日本电子公司参与了与英语互译的项目(富士通、东芝、NTT、兄弟、Catena、三菱、夏普、三洋、日立、NEC、松下、弘电社、Nova、冲电气)。20世纪80年代的研究通常依赖于各种中介语言表征来进行翻译,包括构词学分析、句法分析和语义分析的。20世纪80年代末,新的机器翻译方法大量涌现。IBM开发了一个“基于统计方法”的系统。Makoto Nagao和他的团队使用了基于大量翻译范例的方法,这种技术现在称为“基于实例”的机器翻译。这两种方法的一个显著特点是忽略了语法和语义规则,而是依赖于对大型文本语料库的操作。在20世纪90年代,受语音识别和语音合成技术成功的鼓舞,随着德国Verbmobil项目的发展,开始了语音翻译研究。前向区域语言转换器(FALCon)系统是美国陆军研究实验室设计的一种机器翻译技术,1997年投入战场,为波斯尼亚的士兵翻译文件。由于低成本和功能更强大的计算机的出现,机器翻译的使用有了显著的增长。20世纪90年代初,机器翻译开始从大型计算机向个人计算机和工作站过渡。两家公司Globalink和MicroTac曾一度引领个人电脑市场,之后两家公司的合并(1994年12月)被认为符合两者的利益。Intergraph和Systran也在这个时候开始提供PC版本,网站也可以在互联网上找到,例如AltaVista的Babel Fish(使用Systran技术)和谷歌语言工具(最初也只使用Systran技术)。机器翻译领域在过去几年中发生了重大变化。对统计机器翻译和基于实例的机器翻译进行大量研究。在语音翻译领域,研究的重点是将翻译系统从限定领域的系统转向领域不受限的系统。在欧洲的不同研究项目(如TC-STAR)和美国(STR-DUST和US-DARPA-GALE),已经制定了自动翻译议会演讲和广播新闻的解决方案。在这些场景中,内容的领域不再局限于任何特殊领域,而是要翻译涵盖各种主题的演讲。法德合作的Quaero项目研究了,为多语言互联网上使用机器翻译的可能性。该项目不仅要翻译网页,还要翻译互联网上的视频和音频文件。今天,只有少数公司使用商业统计机器翻译,例如Omniscien Technologies(前身为亚洲在线),SDL / Language Weaver(销售翻译产品和服务),谷歌(使用其专有的统计MT系统谷歌语言工具中的一些语言组合,微软(使用其专有的统计MT系统翻译知识库文章)和Ta with you (提供基于统计MT领域与一些语言知识的适应机器翻译解决方案)。随着与研究人员将句法和形态(即语言)的知识结合到统计系统,以及结合了现有基于规则系统的统计资料,开始对混合技术产生了兴趣。

相关

  • 头孢匹胺头孢匹胺也称为“头孢吡胺”“头孢吡四唑”或“甲吡唑头孢菌素”,是一种第三代头孢菌素。此抗生素对革兰氏阳性菌(包括葡萄球菌、链球菌、消化球菌等)具有很强的抗菌作用,对绿脓
  • 带原者带原者指受到传染病的感染或带有隐性(recessive)遗传疾病的不正常基因,却不表现症状的人。即使不受到疾病或基因可感染到的影响,他们仍能够将传染性疾病的病原体散播给其他个体
  • 拟寄生物拟寄生物(Parasitoid)也称类寄生生物或捕食寄生生物,是指幼虫期寄生宿主体内,后期将宿主杀死,成虫营自由生活的生物,成虫多半会利用产卵管将卵注入至宿主体内。“拟寄生”是一种介
  • 腺病毒感染腺病毒感染是指人体受腺病毒感染后的病征,主要是影响呼吸系统,但也可以引致肠胃炎、结膜炎、膀胱炎及出疹。呼吸系统受腺病毒影响下,会出现类似流行性感冒的病征,例如咳嗽、流鼻
  • 陶片放逐制陶片放逐制(希腊文:ὄστρακον;英文:Ostracism),又译陶片流放制、陶片放逐法、陶片流放法或贝壳流放法等,是古代雅典城邦的一项政治制度,由雅典政治家克里斯提尼于前510年创立
  • 阿斯图里亚斯语阿斯图里亚斯语(阿斯图里亚斯语:Asturianu,阿斯图里亚斯语发音: /astuˈɾjanʊ/)又称作llïonés、mirandés或Bable,是罗曼语族下的一种语言,在西班牙的阿斯图里亚斯、莱昂、萨
  • 弥撒弥撒(拉丁语:Missa),又称感恩祭(拉丁语:Eucharistia, Synaxis),是天主教会拉丁礼的祭祀仪式。旧天主教会、圣公会及大部分的路德会高派教会的礼仪也跟弥撒大同小异。在东方教会中,是
  • 波旁复辟波旁复辟(法语:Restauration)是法国历史上从1814年4月6日拿破仑·波拿巴退位到1830年7月29日七月革命的时期。波旁复辟时期,法国又回到了波旁王朝的统治之下,法国再次成为君主制
  • 极端贫困极端贫穷(英语:Extreme poverty)即赤贫,指贫穷的最严重状况,亦即一个人无法获致生存所需的基本需求,包括食物,水,衣物,住屋,卫生设备,教育与健康医疗。为掌握世界各国极端贫穷的人数,世
  • Congressional Research Service国会研究处(英语:Congressional Research Service,简称:CRS),亦称国会研究服务处、国会研究服务部,隶属于美国国会图书馆立法参考服务处之下,是美国国会智库机构之一,亦是支援国会立