神经机器翻译

✍ dations ◷ 2024-12-25 23:42:41 #神经机器翻译

神经机器翻译(英语:neural machine translation,缩写:NMT)是一种直接使用人工神经网络以端到端方式进行翻译建模的机器翻译方法。

2014年出现了第一篇关于在机器翻译中使用神经网络的科学论文,随后几年神经机器翻译又取得了一些进展。

神经机器翻译所需的内存比传统统计机器翻译(SMT)模型少了许多,此外,神经翻译模型的各个部分都是联合训练的(端到端),以充分利用翻译效能。

深度学习应用首次出现在1990年代的语音辨识领域。2014年,第一篇关于以神经网络进行机器翻译的科学论文问世。同年,Bahdanau等人和Sutskever等人提出了端到端的神经网络翻译模型,正式使用了“神经机器翻译”一词。2015年,百度推出了第一个大规模的NMT系统,Google于隔年推出,其他公司也随后纷纷推出NMT系统。该领域在接下来几年取得许多进展,如大词表NMT、影像字幕应用、子词-NMT、多语种NMT、多源NMT、字元解码NMT、零资源NMT、全字元-NMT和零样本NMT(Zero-Shot NMT)等。2015年,NMT系统第一次出现在公开机器翻译比赛(OpenMT'15),WMT'15也开始有NMT系统参赛,次年,该比赛已经有90%的获奖者是NMT系统。

欧洲专利局从2017年以来持续使用神经机器翻译技术,让世界各地的专利系统的资讯得以即时理解 。该系统是与Google合作开发的,有31种语言配对,该系统截至2018年已翻译超过900万个文件。

神经机器翻译(NMT)与个别改造子部件的统计式词组翻译模型不同。神经机器翻译的原理并没有大幅突破传统的统计机器翻译,它们之间的主要区别在于,神经机器翻译对词汇和内部状态使用了向量表征(“嵌入”、“连续空间表征”)。NMT的模型结构比基于词组的模型更为简单,不是用分开的语言模型、翻译模型和重新排序模型,而是仅使用单一序列(Sequence)模型,一次预测一个词汇,这个序列预测是根据整段的源语言句子和已产生的目标语言序列来预测的。NMT模型使用了深度学习和表征学习。

词序列起初通常是以递回神经网络(RNN)来建模。被称为“编码器”的双向RNN为被称为“解码器”的RNN编码源语言的句子,解码器被用来预测目标语言中的词汇。递回神经网络在将长输入编码为单一向量时会面临困难,这点可以透过注意力机制来弥补 ,该机制允许解码器在产生输出的每个词汇时特别关注输入的不同部分。此外还有多种覆盖模型(Coverage Model)用于解决这种注意力机制所处理的问题,比如忽略过去的对齐资讯所造成的过度翻译(over-translation)和翻译不足(under-translation)。

卷积神经网络(CNN)原则上对处理长的连续序列有一定的好处,但仍有几个劣势导致最初未被使用,这些劣势在2017年时成功以“注意力机制”解决。

“Transformer”是一个基于注意力的模型,目前仍然是几个语言对的主导架构。Transformer模型的自注意力层( self-attention layer)透过检查配对序列中所有词汇之间的依存关系,直接对这些关系进行建模,借此学习序列中词汇之间的依存关系。这是一种比RNN采用的门控机制更简单的方法。Transformer简单易用,使研究人员即使是在低度语言资源(low-resource )的条件下,也能够用Transformer模型开发高品质的翻译模型。


相关

  • 酶工程酶工程(英语:Enzyme engineering)又可以说是蛋白质工程学,利用传统突变技术或是分子生物学技术,将蛋白质上的氨基酸进行突变,已改变蛋白质之化学性质和功能。例如:在酵素的应用上,
  • 西西里岛黑手党西西里岛黑手党(意大利语:Mafia Siciliana),可简称作黑手党(Mafia),成员亦称之为“Cosa Nostra(意大利语发音:,意为‘我们自己的事’)”,是以意大利西西里岛为基地,带有恐怖主义的黑手党
  • 云城区云城区是中国广东省云浮市下辖的市辖区,是云浮市人民政府所在地,是中国工人运动早期著名领袖邓发烈士的故乡,地处广东省中西部、云浮市东北部,地势西南高、东北低,东邻肇庆市高要
  • 麻豆腐麻豆腐是一种北京小菜,在明代就已出现。是将绿豆加水磨粉后,经发酵后滤去上层液体状的豆汁,而残留下的絮状绿豆渣。烹制方法是加羊尾巴的脂肪、红辣椒、青豆或黄豆、雪里蕻一起
  • 贾奈尔·辛格·宾德兰瓦勒贾奈尔·辛格·宾德兰瓦勒或贾奈尔·辛格(旁遮普语:ਜਰਨੈਲ ਸਿੰਘ ਭਿੰਡਰਾਂਵਾਲੇ,1947年2月12日-1984年6月6日)是印度锡克教组织激进派别Damdami Taksal的领袖,领
  • 翦知湣翦知湣(1966年12月-),湖南常德人,维吾尔族,中国海洋地质学家。翦知湣于1987年毕业于北京大学地质系古生物与地层学专业。后赴同济大学海洋地质与地球物理系攻读研究生,1993年获博士
  • 扇谷上杉家扇谷上杉家(日语汉字:扇谷上杉家,假名:おうぎがやつうえすぎけ,罗马字:)是室町时代在关东地方割据的上杉氏诸家之一。在日本战国时代以武藏国为据点并成为大名,在南关东发展势力。扇
  • 谭照华谭照华(1939年12月-),湖南望城人,1959年9月加入中国共产党。中南矿冶学院企业管理班毕业。后在衡阳冶金机械总厂工作,历任工人、生产班长、工段长、办公室主任、政治部主任、干部部部长、车间主任、厂革委会常委、办公室主任、副厂长、厂长等职(中间曾被下放至车间劳动)。1985年起历任岳阳地区行政公署专员、岳阳市市长;湖南省物资厅厅长、湖南物资产业集团总公司总经理、湖南物资产业集团有限公司董事长。2001年因涉嫌“挪用公款罪”被捕,2003年以挪用公款罪和受贿罪被判刑11年,2011年2月在蒙冤十年后获湖
  • 张孝杰张孝杰(?-11世纪1085年至1094年间)建州永霸县人,辽国汉族官员。家贫,好学。重熙二十四年(1055年),获进士第一名。清宁年间, 累迁枢密直学士。咸雍初年,因奏事错误,被贬出京为惠州刺史。不久受召复旧职,兼任知户部司事。咸雍三年(1067年),任参知政事,枢密院知事,工部侍郎。咸雍八年(1072年),封陈国公。辽道宗认为张孝杰勤劳肯干,多次问他国事,封为北府宰相。在汉人中贵幸无比。大康元年(1075年),赐国姓耶律姓。第二年秋猎, 辽道宗一日射鹿三十只,大宴随从官员。酒酣,辽道宗下命令作赋《云上
  • 傅云龙 (清朝)傅云龙(1840年-1900年)字懋元,号籑喜庐,湖州府德清县钟管镇人。清代北洋官员、洋务派,曾游历南北美多国以及日本,后由王文韶任命为总办北洋机器局。有著作《游历日本图经》等多种。2017年由其后人傅训成合为《傅云龙集》。