首页 >
机器翻译史
✍ dations ◷ 2024-11-05 19:00:49 #机器翻译史
一般认为,机器翻译的历史始于1950年代。虽然相关理论和研究较早已经进行,但在1954年初的乔治城大学的实验,即电脑成功将四十多条俄文句子自动翻译成英文,是机器翻译史中的一个里程碑,标志着现代机器翻译的开端。美国也因此投入了大量资金研究机器翻译。上述实验的研究人员声称在三或五年内,机器翻译中遇到的语言逻辑的困难将会迎刃而解。苏联的研究人员随后也进行了类似的实验。然而,实际进展比预期慢得多。1966年,自动语音处理顾问委员会(Automatic Language Processing Advisory Committee, ALPAC)报告发现十几年来的研究未能达到预期的成果,而且认为机器翻译在短期内不会取得突破性进展。此报告一出,相关的研究经费大幅萎缩。直至80年代后期,由于电脑运算效能的提升及电脑成本的降低,研究的重心开始放在机器翻译统计模型上。至今仍没有一个程式系统能够达到—“全自动优质翻译任何文体”(fully automatic high quality translation of unrestricted text)的境界。 。然而,现在有很多程式在严格限制下能提供准确的翻译。其中有些是网络服务,如Google翻译和SYSTRAN系统。后者为AltaVista的BabelFish提供技术支援(BabelFish自2008年5月9日为雅虎所有)机器翻译的历史可追溯至十七世纪时,哲学家如莱布尼兹与笛卡尔提出代码字,把字和语言联系。但这些建议仍然是理论,没有发展成实际的机器。“翻译机”是20世纪 30年代中期一项专利发明。其中一项建议应用,由乔治阿氏罗利(Georges Artsrouni)提出,是一个使用纸带的自动双语词典。另一项建议则更详细,是由彼得(Peter Troyanskii),俄罗斯人提出。这既包括双语词典,和一个根据世界语,处理语言上语法之间的方法。系统被分为三个阶段:第一阶段是为一位能讲要翻译的来源语言的当地编辑去把文字组织成符合它们的逻辑形式和语法功能;第二阶段是让机器来“翻译”这些文字形式为要翻译的目标语言;以及第三阶段是给能讲当地要翻译的目标语言的编辑将这结果正常化。他的计划仍默默无闻,直至20世纪50年代末期,那时,电脑是众所周知的。时任洛克菲勒基金会的研究员的瓦伦韦弗(Weaver)于1949年7月,在他发表的名为“翻译”的备忘录提出了第一个机器翻译的构想。这些建议是基于信息论、第二次世界大战期间解码成功和对于普遍现象的推测而所构成的自然语言原则。这些建议在几年后,美国许多大学都开始认真研究。1954年1月7日,在纽约的IBM总公司,首次于Georgetown-IBM实验中公开展示MT系统。这次示范亦在报纸上获得广泛报导并引起公众的兴趣。然而今天,该系统只能被称为“儿戏的”系统,一共只有250字和49句经小心筛选的俄文句子翻译为英文 – 内容主要是化学方面的内容。尽管如此,它提出一个观点 – 机器翻译即将成为现实;同时,它不但刺激了美国,还有世界上许多国家对该项研究的资金投入。早期的机器翻译系统,乃透过使用大型双语词典和手动的编码法则来修正得出的语序,但此系统被发现有太多限制。而那时期语言学的发展,例如生成语言学和转换生成语法,都试图改善其翻译质素。在此期间,操作系统被安装。美国空军使用的系统是由IBM 和华盛顿大学生产,而位于美国的原子能委员会和于意大利的欧洲原子能组织使用的系统则是由乔治城大学所开发。尽管输出的质量是粗劣,它仍然满足了许多客户主要在速度方面的需求。在1950年代末,美国政府要求研究员野浩树洼·巴希里(Yehoshua Bar-Hillel)研究可否利用机器执行全自动高质量的翻译。野浩树洼(Yehoshua) 提出了一个论点。此论点是语义歧义或双重意义。试分析以下句子:Little John was looking for his toy box. Finally he found it. The box was in the pen.“Pen”这个词可以有两个含义,第一个含义指人们用来书写的工具,第二个含义指某种容器。对人而言,其含义显而易见,但他声称如果没有“万用百科全书”,机器将永远无法处理这个问题。现在,这类语义歧义可以通过编写受控的机器翻译语言源文,利用词汇的每个准确含义的单词来解决。美国与苏联于1960年代的研究,主要都集中在英文与俄文的语言配对翻译。翻译的主要对象是科学和技术上的文件,如科学期刊的文章。粗糙的翻译足以了解文章的基本内容。如果讨论的主题被视为是机密,它会被送往人类译者以取得完整的版本,不是的话则被舍弃。随着ALPAC报告的出版,机器翻译研究在1966年遭受了巨大的打击。该报告由美国政府委托,由自动语言处理咨询委员会ALPAC提供,该委员会由美国政府于1964年召集的七名科学家组成。美国政府感到关切的是,尽管支出费用庞大,却仍然未取得进展。该报告的结论是“机器翻译比人工翻译更昂贵、更不准确、速度更慢。而且尽管花费巨大,在不久的将来,机器翻译仍不太可能达到人工翻译的水平。”然而,该报告也建议开发一些工具来帮助翻译人员(例如自动词典),并应该继续支持某些计算语言学的研究。该报告的发表对美国的机器翻译研究产生了深远的影响,对苏联和英国的影响则较轻微。至少在美国,机器翻译的研究几乎完全被遗弃了十多年。然而,在加拿大、法国和德国,相关研究仍持续进行。在美国,主要的例外有Systran(彼得•托马创立)和Logos(伯纳德•斯科特创立),他们分别在1968年和1970年成立了自己的公司,并为美国国防部服务。1970年,美国空军安装了Systran系统,欧洲共同体委员会随后也在1976年安装。METEO系统是由蒙特利尔大学开发,并于1977年安装在加拿大,负责将天气预报从英语翻译成法语,在2001年9月30日被竞争对手的系统取代之前,METEO系统每天翻译近8万字,每年翻译近3000万字。20世纪60年代的研究集中在有限的语言配对和输入上,而1970年代受全球化的增长以及加拿大、欧洲和日本对翻译的需求影响,刺激了对低成本机器翻译系统的需求,目的是为了用于翻译一系列技术和商业文件。到20世纪80年代,用于机器翻译的安装系统的多样性和数量都有所增加。许多依赖大型计算机技术的系统正在使用,例如Systran、Logos、Ariane-G5和Metal。由于微型计算机可用性的提高,开始有了低端机器翻译系统市场。欧洲、日本和美国的许多公司都利用了这一点。系统也被带到中国、东欧、韩国和苏联市场。20世纪80年代,日本的MT活动非常活跃。随着第五代计算机的计划,日本打算在计算机硬件和软件方面超越竞争对手,许多大型日本电子公司参与了与英语互译的项目(富士通、东芝、NTT、兄弟、Catena、三菱、夏普、三洋、日立、NEC、松下、弘电社、Nova、冲电气)。20世纪80年代的研究通常依赖于各种中介语言表征来进行翻译,包括构词学分析、句法分析和语义分析的。20世纪80年代末,新的机器翻译方法大量涌现。IBM开发了一个“基于统计方法”的系统。Makoto Nagao和他的团队使用了基于大量翻译范例的方法,这种技术现在称为“基于实例”的机器翻译。这两种方法的一个显著特点是忽略了语法和语义规则,而是依赖于对大型文本语料库的操作。在20世纪90年代,受语音识别和语音合成技术成功的鼓舞,随着德国Verbmobil项目的发展,开始了语音翻译研究。前向区域语言转换器(FALCon)系统是美国陆军研究实验室设计的一种机器翻译技术,1997年投入战场,为波斯尼亚的士兵翻译文件。由于低成本和功能更强大的计算机的出现,机器翻译的使用有了显著的增长。20世纪90年代初,机器翻译开始从大型计算机向个人计算机和工作站过渡。两家公司Globalink和MicroTac曾一度引领个人电脑市场,之后两家公司的合并(1994年12月)被认为符合两者的利益。Intergraph和Systran也在这个时候开始提供PC版本,网站也可以在互联网上找到,例如AltaVista的Babel Fish(使用Systran技术)和谷歌语言工具(最初也只使用Systran技术)。机器翻译领域在过去几年中发生了重大变化。对统计机器翻译和基于实例的机器翻译进行大量研究。在语音翻译领域,研究的重点是将翻译系统从限定领域的系统转向领域不受限的系统。在欧洲的不同研究项目(如TC-STAR)和美国(STR-DUST和US-DARPA-GALE),已经制定了自动翻译议会演讲和广播新闻的解决方案。在这些场景中,内容的领域不再局限于任何特殊领域,而是要翻译涵盖各种主题的演讲。法德合作的Quaero项目研究了,为多语言互联网上使用机器翻译的可能性。该项目不仅要翻译网页,还要翻译互联网上的视频和音频文件。今天,只有少数公司使用商业统计机器翻译,例如Omniscien Technologies(前身为亚洲在线),SDL / Language Weaver(销售翻译产品和服务),谷歌(使用其专有的统计MT系统谷歌语言工具中的一些语言组合,微软(使用其专有的统计MT系统翻译知识库文章)和Ta with you (提供基于统计MT领域与一些语言知识的适应机器翻译解决方案)。随着与研究人员将句法和形态(即语言)的知识结合到统计系统,以及结合了现有基于规则系统的统计资料,开始对混合技术产生了兴趣。
相关
- 白细胞白血球,又称为白细胞,是血液中重要的血细胞之一。除白细胞外,人体血液中还含有红细胞、血小板和血浆。白细胞是免疫系统的一部分,帮助身体抵抗传染病以及外来的东西。白细胞可以
- 硝酸盐硝酸盐是一个多原子离子其分子式NO3−和分子量62.0049克/mol。硝酸盐同样描述为有机官能团RONO2。这些硝酸酯是一专业炸药。CP#3是硝酸根离子NO3−形成的盐。许多金属都能形
- 孢子囊孢子囊是植物或真菌制造并容纳孢子的组织。孢子囊会出现在被子植物门、裸子植物门、蕨类植物门、蕨类相关、苔藓植物、藻类和真菌等生物上头。小孢子囊是花朵雄蕊上被称做花
- 修道制度基督宗教中的修道制度是起因于反对教会逐渐世俗化,在3、4世纪时兴起。而更早的潜伏因素是在君士坦丁大帝统一教会及罗马帝国前,因基督教的宽柔政策,所以教会水准偏低、基督徒素
- 黄帝外经《黄帝外经》首见于《汉书》卷三十,艺文志第五,方技类之医经中,惟不见录经文。相关之书目为:《黄帝外经》三十九卷或三十七卷。另有《扁鹊外经》十二卷。又有《白氏外经》三十六
- 新零售新零售是由阿里巴巴集团前董事长马云在2016年阿里巴巴集团云栖大会上提出的一个理论,该理论的核心是“(自当年)未来10年20年之后没有电子商务只有新零售”。所谓新零售是指以消
- 神经分泌细胞神经分泌细胞,将神经信号转变成化学刺激的神经元。神经分泌细胞能产生神经激素,神经激素沿轴突移,在神经血器官(轴突终端与毛细血管紧密接触的特殊部位)释放至血液中。神经分泌细
- 亅亅部,为汉字索引里为部首之一,康熙字典214个部首中的第六个(一划的则为第六个)。就繁体中文中,亅部归于一划部首,而在简体字部首中,“亅部”并入“丨部”,视为“丨部”的附形部首。
- 黄酮类化合物黄酮类化合物(英语:Flavonoid,又称类黄酮)基于2-苯基色原酮-4-酮(2-苯基-1-苯并吡喃(英语:Benzopyran)-4-酮)骨架的黄酮类化合物,如右图所示,基本母核为2-苯基色原酮类化合物,现在则泛指
- 科菲县科菲县(Coffee County, Georgia)是美国乔治亚州南部的一个县。面积1,561平方公里。根据美国2000年人口普查,共有人口37,413人。县治道格拉斯 (Douglas)。成立于1854年2月9日。