自然语言处理

✍ dations ◷ 2024-12-22 14:01:12 #自然语言处理
自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。自然语言处理大体是从1950年代开始,虽然更早期也有作为。1950年,图灵发表论文“计算机器与智能(英语:Computing Machinery and Intelligence)”,提出现在所谓的“图灵测试”作为判断智能的条件。1954年的乔治城实验(英语:Georgetown-IBM experiment)涉及全部自动翻译(英语:automatic translation)超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。不过实际进展远低于预期,1966年的ALPAC报告(英语:ALPAC report)发现十年研究未达预期目标,机器翻译的研究经费遭到大幅削减。一直到1980年代末期,统计机器翻译系统发展出来,机器翻译的研究才得以更上一层楼。1960年代发展特别成功的NLP系统包括SHRDLU(英语:SHRDLU)——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统,以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA(英语:ELIZA)——几乎未运用人类思想和感情的消息,有时候却能呈现令人讶异地类似人之间的交互。“病人”提出的问题超出ELIZA 极小的知识范围之时,可能会得到空泛的回答。例如问题是“我的头痛”,回答是“为什么说你头痛?”1970年代,程序员开始设计“概念本体论”(conceptual ontologies)的程序,将现实世界的信息,架构成电脑能够理解的数据。实例有MARGIE、SAM、PAM、TaleSpin、QUALM、Politics以及Plot Unit。许多聊天机器人在这一时期写成,包括PARRY(英语:PARRY) 、Racter(英语:Racter) 以及Jabberwacky(英语:Jabberwacky) 。一直到1980年代,多数自然语言处理系统是以一套复杂、人工订定的规则为基础。不过从1980年代末期开始,语言处理引进了机器学习的算法,NLP产生革新。成因有两个:运算能力稳定增加(参见摩尔定律);以及乔姆斯基 语言学理论渐渐丧失主导(例如转换-生成文法)。该理论的架构不倾向于语料库——机器学习处理语言所用方法的基础。有些最早期使用的机器学习算法,例如决策树,是硬性的、“如果-则”规则组成的系统,类似当时既有的人工订定的规则。不过词性标记(英语:part-of-speech tagging)将隐马尔可夫模型引入NLP,并且研究日益聚焦于软性的、以几率做决定的统计模型,基础是将输入数据里每一个特性赋予代表其分量的数值。许多语音识别现今依赖的缓存语言模型(英语:cache language model)即是一种统计模型的例子。这种模型通常足以处理非预期的输入数据,尤其是输入有错误(真实世界的数据总免不了),并且在集成到包含多个子任务的较大系统时,结果比较可靠。许多早期的成功属于机器翻译领域,尤其归功IBM的研究,渐次发展出更复杂的统计模型。这些系统得以利用加拿大和欧盟现有的语料库,因为其法律规定政府的会议必须翻译成所有的官方语言。不过,其他大部分系统必须特别打造自己的语料库,一直到现在这都是限制其成功的一个主要因素,于是大量的研究致力于从有限的数据更有效地学习。近来的研究更加聚焦于非监督式学习和半监督学习(英语:semi-supervised learning)的算法。这种算法,能够从没有人工注解理想答案的数据里学习。大体而言,这种学习比监督学习困难,并且在同量的数据下,通常产生的结果较不准确。不过没有注解的数据量极巨(包含了万维网),弥补了较不准确的缺点。近年来,深度学习技巧纷纷出炉 在自然语言处理方面获得最尖端的成果,例如语言模型、语法分析等等。理论上,NLP是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。由于理解(understanding)自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-complete)的问题。同时,在自然语言处理中,"理解"的定义也变成一个主要的问题。一些NLP面临的问题实例:不少的中文相关笑话即是利用类似结构的中文造句而成,此类笑话通常带有《中文博大精深》之类的词汇,叙述多以老外参加考试为背景。例子如下:‘ 某老外苦学汉语10年,到东方参加汉语考试。试题为“请解释下列句子”: 阿呆给长官送红包时,两个人的对话颇有意思。 长官:“你这是什么意思?” 阿呆:“没什么意思,意思意思。” 长官:“你这就不够意思了。” 阿呆:“小意思,小意思。” 长官:“你这人真有意思。” 阿呆:“其实也没有别的意思。” 长官:“那我就不好意思了。” 阿呆:“是我不好意思。”老外泪流满面,交白卷回国了。 ’第一,传统的基于句法-语义规则的理性主义方法过于复杂,随着语料库建设和语料库语言学的崛起,大规模真实文本的机器学习处理成为自然语言处理的主要选择。第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。统计自然语言处理运用了推测学、几率、统计的方法来解决上述,尤其是针对容易高度模糊的长串句子,当套用实际文法进行分析产生出成千上万笔可能性时所引发之难题。处理这些高度模糊句子所采用消歧的方法通常运用到语料库以及马可夫模型(Markov models)。统计自然语言处理的技术主要由同样自人工智能下与学习行为相关的子领域:机器学习及数据采掘所演进而成。

相关

  • 神经内科人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学神经内科(neurology)是医学的一个分支,专
  • 原核生物原核生物(英文:prokaryote)是通常由单一原核细胞形成的生物。相对于真核细胞,原核细胞一般没有细胞内膜、没有核膜包裹的成型细胞核,细胞内无染色体,DNA链未螺旋化,并以游离的形成
  • 多萝西·克劳福特·霍奇金多萝西·玛丽·霍奇金,OM,FRS(英语:Dorothy Mary Hodgkin,1910年5月12日-1994年7月29日)本姓克劳福特(Crowfoot),英国女性生物化学家,促进了蛋白质晶体学的发展。她生于开罗,1964年获诺
  • 变形虫变形虫,拉丁文为Amoeba,中文音译为阿米巴,所以也叫做阿米巴原虫、阿米巴变形虫或阿米巴虫或称食脑虫(透过感染鼻腔而进入脑部感染的死亡率高达九成)。是一种单细胞原生动物,仅由一
  • 血容量减少血容量减少,亦称血容量过低、休克,指的是体内血量减少的状况。 它表现在体内血液体积收缩和脱盐上。常见的血容量减少的原因有:
  • 疏水性在化学里,疏水性指的是一个分子与水互相排斥的物理性质。这种分子称为疏水物。疏水性分子偏向于非极性,并因此较会溶解在中性和非极性溶液(如有机溶剂)。疏水性分子在水里通常会
  • 妮娜大陆妮娜大陆(Nena)是一个远古的较小规模超大陆,由北极大陆、波罗地大陆和东南极克拉通的多个克拉通组成。妮娜大陆大约在18亿年前组成,后来成为全球性超大陆哥伦比亚大陆的一部分。
  • 斑块丘疹(英语:papule),为局限性、实质性、直径小于1cm的表浅隆起性皮损。丘疹表面可扁平(如扁平疣(英语:flat wart))、圆形脐凹状(如传染性软疣)或粗糙不平呈乳头状,颜色可呈紫红色(如扁平
  • 阿纳帕阿纳帕(俄语:Ана́па)是俄罗斯克拉斯诺达尔边疆区的一个城市,是黑海沿岸的渡假胜地。2002年人口53,493人。阿纳帕交通设施有阿纳帕机场、火车站,一座小吨数轮船停靠之国际海
  • 唯心主义唯心论(英语:idealism)或唯心主义、理想主义、理念论或观念论,在哲学中是一个提出心灵是基本之存在的哲学理论。唯心论直接相对于唯物论,后者认为世界的基本成分为物质,我们对世界