计算语言学

✍ dations ◷ 2024-07-05 04:16:21 #计算语言学
计算语言学,亦称电脑语言学(英语:computational linguistics)是一门跨学科的研究领域,试图找出自然语言的规律,建立运算模型,最终让电脑能够像人类般分析,理解和处理自然语言。过去,计算语言学的研究一般由专门负责利用电脑处理自然语言的电脑学家进行。由于近年的研究显示人类语言是超乎想像的复杂,现在的计算语言学研究多由来自不同学科的专家共同进行。一般来说,研究队伍的成员有电脑学家、语言学家、语言专家(熟悉有关研究项目所要处理的语言的人),以至研究人工智能、认知心理学、数学、逻辑学等的专家。计算语言学具有理论和应用的成分。理论计算语言学聚焦于理论语言学与认知科学;应用计算语言学聚焦于模拟人类使用语言的实用成果。计算语言学会(英语:Association for Computational Linguistics)对于计算语言学的定义是:……从计算的观点,以科学方法研究语言的学问。计算语言学家关注于提供各种语言学现象的计算模型。计算语言学始于一九五零年代的美国,是人工智能研究的开端。当时,美国希望能够利用运算又快又准确的电脑,将大量外语材料瞬间翻译成英语;研究重点特别放在翻译俄文写成的科学技术刊物上,以窥探苏联的科技发展。电脑既然比人类运算更快、更准确,当初认为电脑很快就可以开始处理语言。计算与计量方法也曾经用于重建现代语言的早先形式以及将现代语言组成语群。早期的方法例如词汇统计学(英语:lexicostatistics)与语言年代学都证实未成熟、不准确。不过近年来跨领域研究借用生物学,尤其是基因作图,产生了更精密的分析工具与更可靠的结果。当机器翻译无法立即产生精确的翻译,人类语言的自动处理被视为远比当初所设想的复杂。计算语言学这个新领域于是诞生,从而发展能够智慧处理语言资料的算法与软件。“计算语言学”这个术语是由计算语言学会(英语:Association for Computational Linguistics)与计算语言学国际委员会(英语:International Committee on Computational Linguistics)的起始成员大卫•海斯(David G. Hays(英语:David G. Hays))所创。1960年代,人工智能出现,计算语言学这个领域成为人工智能的分支,处理人类层次的理解与自然语言的产出。为了翻译一种语言成为另一种语言,发觉必须理解两种语言的语法,包括词法与句法。为了理解句法,又必须理解语义与词汇表(英语:lexicon),甚至语用学。因此本来只是两种语言之间的翻译,演变成探究如何使用电脑去表述与处理自然语言。正如计算语言学可以由不同领域、各个系所的专家进行研究,研究的领域也可以划分成各样的主题。下面各节探讨横跨整个领域的一些现有文献,分为四个区块:发展语言学,结构语言学,语言产出,以及语言理解。语言是个人一生中发展出来的认知能力。这个发展过程已有一些检视的技巧,运用计算是其中一种方法。人类的语言发展(英语:language development)对于计算方法造成一些限制,增加了以其理解语言发展的难度。例如儿童在语言习得期间,大体上只遭逢正面例证,亦即在个人语言发展期间,只接触到语言正确的形式,而无不正确的形式,这对于做简单的假说检定而言资料不足,因此造成了使用计算方法去模拟个人语言发展与习得的界限。从计算的观点去模拟语言习得的过程导致了统计语法(英语:stochastic grammar)与联结模型。这方面的成果被提议用来作为解释语言的起源之方法。利用模型已显示,语言的学习可以随着儿童发展出更佳的记忆力与更长的注意期间,经由渐进地提供简单的输入组合而达成。这同时也解释了为什么人类幼儿发展期之长。以上两个结论都因为该计划创建的人工神经网络之优点而得以达成。婴儿的语言发展能力也已利用机器人去模拟,以便检定语言学理论。一个可以如孩童般学习的模型,根据直观功能的概念而建,映射行动、知觉、与效应,并且连结到口语。重要的是,这些机器人不需要语法结构,而能够习得字词与意义之间的关联,大大地简化了学习过程。这个模型揭示的讯息,增进了对于语言学发展的理解,必须注意的是,这些讯息只能使用计算方法进行经验测试。为了建立更佳语言的计算模型,理解语言的结构至关重要。这个目标,英语已利用计算方法周密地进行研究,以便更佳理解英语在结构层次如何运行。研究语言结构的要件之一是具备大型的语料库或样本,计算语言学家才能有足够的原始资料进行模拟,并且在大量的资料里,更佳理解任一语言的内在结构。最常引用的语料库之一是宾大结构树库(英语:Treebank)。这个语料库来源多元广泛,例如IBM的电脑手册和转写的电话谈话,包含超过四百五十万个美式英文字。这个语料库主要以词类标记与句法加括(syntactic bracketing)来注释,并且已产生关于结构的大量实证观察。语言结构的理论也已发展,让计算语言学家能在架构内运用多种方法发展假说,从而增进对语言的理解。关于语法的内化与语言结构,一个原创理论提出了两种模型,其中学习到的规则与模式,会随着接触的频率而增强。这种模型也留下一个问题有待计算语言学家解答:婴儿如何能在未学习简单化语法的情况下,学习特定与异常的语法(乔姆斯基范式)。在这个领域的早期,此类理论的成果设定了研究的方向,对于其茁壮至关重要。语言结构的资讯可以用于认定两个类似的语句, 例如近来已证实,根据人类言谈模式之中的语言结构,概念的递归图(英语:recurrence plots)可以用来模拟资料并使其图像化,对于自然语句的相似性,建立起可靠的测量方法。这种技巧对于更进一步探究人类言谈的结构,是有力的工具。这个问题不用计算的方法,科学家无法获得言谈资料之中巨量复杂的资讯。语言产出有两个同样复杂的成分:语言内含的资讯,以及流利的产出者所需的技巧。亦即理解只是通讯问题的一半,另一半是系统如何产出语言,计算语言学家在这方面已有非常令人关注的发现。1950年艾伦·图灵在一篇现在著名的论文里,提出机器或许有能够思考的一天。他提议一种“模拟测试”,用来定义机器思考的概念,其中受试者以文字进行两场谈话,一次与真人,一次与模仿人的机器。图灵提议,如果受试者无法分辨真人与机器之别,或许可以断定该机器能够思考。这种测试现今称为图灵测试,在人工智能领域仍是重要概念。最早期著名的自然交谈程式之一是ELIZA(英语:ELIZA),1966年由约瑟夫·维森鲍姆在麻省理工学院发展而成。该程式回答使用者提出的文字陈述或问题时,模拟一位罗杰斯式心理治疗师。它看似能够理解他人输入的谈话并且智慧地回应,但实际上只是执行句型对比的程序,只认得句子里的几个关键字。其回答是由未知的部分围绕着转化的已知单字而组成。以“你似乎厌恶我”举例而言,ELIZA理解“你”和“我” ,因而找出“你…我”的基本句型,再把“你”和“我”转成“我”和“你”,然后回答“为什么你会认为我厌恶你?”在这个例子里,ELIZA并不理解“厌恶”这个词,但不妨碍在这种心理分析的情境下形成一个合理的回答。许多最早期像ELIZA这种简单的人机互动模式,电脑接受使用者的文字输入然后产生回答。这种方法使用“关键词撷取(英语:keyword spotting)”:电脑识别使用者打入词句的类型,再据以回答。最近的科技比较重视语音互动系统。这些系统,例如iOS操作系统的Siri,运用的技巧类似文字系统的句型辨识,只不过使用者的输入是经由语音辨识。这个语言学的分支,把使用者的语音当作音波来处理,并解释音质与语言的形式,让电脑得以辨识使用者的输入。现代计算语言学多着重于语言理解。随着互联网的扩张,人写的文字随处可见,如果有程式能够理解自然语言,会带来广泛、令人振奋的机会,包括改良的搜索引擎、自动化客服、以及线上教育。语言理解的早期成果包括应用贝氏统计进行光学字符识别。其它贝氏统计的语言分析应用包括分析《联邦党人文集》以决定作者是谁。理解口语方面,最初是奠基于1960、1970年代信号模拟的成果——分析未知的信号,从中找寻类型,并且根据历史做出预测。这种信号模拟应用于语言,最早、还算成功的一例是在1989年利用隐马尔可夫模型达成。这些统计方法更近期被应用在较难的任务,例如主题识别——估计贝氏参数以推断文件主题为何的几率。现代计算语言学是门混合的学问,包括计算机科学与程序设计、数学(尤其是统计学)、语言结构、以及自然语言处理。这些领域的结合,发展出辨认语音然后据以执行任务的系统。例如语音识别软件(苹果的Siri)、拼字检查工具、语音合成程式(示范发音或辅助语言障碍者)、以及机器翻译(谷歌翻译、WordReference) 。计算语言学在社交媒体与网际网络的场域可能特别有助益。例如过滤聊天室与网站的内容必须利用计算语言学,也有许多程序让家长使用“家长控制(英语:Parental controls)”。计算语言学家也能利用“社交媒体挖掘(英语:Social media mining)”发展出分类与组织内容的程式。例如推特,程式可以根据主题或关键字去分类“推文”。计算语言学也能应用于文件检索与分类。当你在线上搜寻时,出现的文件与网站取决于你键入的文字相应的独特标示。计算语言学可以根据语言的媒介与执行的任务区分:语音或文字;分析(识别)或合成(生成)。主要包括以下几个方面:语音编码(speech coding)、语音识别(speech recognition)、语种识别(language identification)、说话人识别(speaker recognition)或说话人确认(speaker verification)、语义理解(semantics understanding)、语音合成(speech synthesis)等。在人机交互过程中,经常用到语音识别技术和语音合成技术。机器翻译的主要方法包括规则机器翻译,实例机器翻译及统计机器翻译

相关

  • 妊娠糖尿病妊娠期糖尿病(gestational diabetes mellitus,简写成GDM)是指原先没有糖尿病症状的女性,在怀孕时出现高血糖的症状,妊娠糖尿病不一定会有明显症状,不过会增加妊娠毒血症、忧郁症的
  • 人口控制人口控制指的是控制人口数量,以达到减轻资源负担及提高生活水平等目的。一般来说合理做法被认为是让总和生育率接近二。在非发达国家通常是指减少人口增长,一般是通过减少出生
  • 新元古代新元古代(英语:Neoproterozoic,符号NP)是地质时代中的一个代,开始于同位素年龄1000百万年(Ma),结束于542±0.3Ma。新元古代期间菌藻类继续繁盛,开始出现动物的化石。新元古代属于前寒
  • 孢子囊孢子囊是植物或真菌制造并容纳孢子的组织。孢子囊会出现在被子植物门、裸子植物门、蕨类植物门、蕨类相关、苔藓植物、藻类和真菌等生物上头。小孢子囊是花朵雄蕊上被称做花
  • 切尔诺贝利核事故切尔诺贝利核事故(俄语:Авария на Чернобыльской АЭС,乌克兰语:Чорнобильська катастрофа,英语:Chernobyl disaster),或简称切尔诺
  • 工业化工业化(美:industrialization,英:industrialisation)是人类社会由前工业(累积资本速度缓慢的农业畜牧业经济)到工业状态的社会及经济改变过程(见前工业社会)。此一社会及经济改变与技
  • 雨水扑满雨水收集(英语:Rainwater harvesting)又称雨扑满、雨水集蓄,是雨水的累积用于现场再利用而不是允许其流失。雨水可以从雨水收集或屋顶雨水收集器收集,或用网或其他工具从雾和露水
  • 阿斯旺省阿斯旺省(阿拉伯语:محافظة أسوان‎),是埃及一级行政区划之一,位于埃及南部,首府为阿斯旺。该省东为红海省,西为新河谷省,北为基纳省,南与苏丹共和国接壤,面积原为34,608平
  • 肘是指手臂中部,连接上臂与前臂的铰链关节——肘关节附近的区域。有三块骨头与肘关节相连:上臂的肱骨、前臂的尺骨和桡骨。肘尖的突出物是尺骨鹰嘴,而肘内部的外表构造称为肘前
  • 土耳其土耳其国家图书馆(Millî Kütüphane)是土耳其的国家图书馆,位于该国首都安卡拉。此图书馆成立于1946年4月15日,是土耳其藏书最多的图书馆之一。 该博物馆最初建立时因为空间太