自然语言处理

✍ dations ◷ 2025-10-29 05:10:14 #自然语言处理
自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。自然语言处理大体是从1950年代开始,虽然更早期也有作为。1950年,图灵发表论文“计算机器与智能(英语:Computing Machinery and Intelligence)”,提出现在所谓的“图灵测试”作为判断智能的条件。1954年的乔治城实验(英语:Georgetown-IBM experiment)涉及全部自动翻译(英语:automatic translation)超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。不过实际进展远低于预期,1966年的ALPAC报告(英语:ALPAC report)发现十年研究未达预期目标,机器翻译的研究经费遭到大幅削减。一直到1980年代末期,统计机器翻译系统发展出来,机器翻译的研究才得以更上一层楼。1960年代发展特别成功的NLP系统包括SHRDLU(英语:SHRDLU)——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统,以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA(英语:ELIZA)——几乎未运用人类思想和感情的消息,有时候却能呈现令人讶异地类似人之间的交互。“病人”提出的问题超出ELIZA 极小的知识范围之时,可能会得到空泛的回答。例如问题是“我的头痛”,回答是“为什么说你头痛?”1970年代,程序员开始设计“概念本体论”(conceptual ontologies)的程序,将现实世界的信息,架构成电脑能够理解的数据。实例有MARGIE、SAM、PAM、TaleSpin、QUALM、Politics以及Plot Unit。许多聊天机器人在这一时期写成,包括PARRY(英语:PARRY) 、Racter(英语:Racter) 以及Jabberwacky(英语:Jabberwacky) 。一直到1980年代,多数自然语言处理系统是以一套复杂、人工订定的规则为基础。不过从1980年代末期开始,语言处理引进了机器学习的算法,NLP产生革新。成因有两个:运算能力稳定增加(参见摩尔定律);以及乔姆斯基 语言学理论渐渐丧失主导(例如转换-生成文法)。该理论的架构不倾向于语料库——机器学习处理语言所用方法的基础。有些最早期使用的机器学习算法,例如决策树,是硬性的、“如果-则”规则组成的系统,类似当时既有的人工订定的规则。不过词性标记(英语:part-of-speech tagging)将隐马尔可夫模型引入NLP,并且研究日益聚焦于软性的、以几率做决定的统计模型,基础是将输入数据里每一个特性赋予代表其分量的数值。许多语音识别现今依赖的缓存语言模型(英语:cache language model)即是一种统计模型的例子。这种模型通常足以处理非预期的输入数据,尤其是输入有错误(真实世界的数据总免不了),并且在集成到包含多个子任务的较大系统时,结果比较可靠。许多早期的成功属于机器翻译领域,尤其归功IBM的研究,渐次发展出更复杂的统计模型。这些系统得以利用加拿大和欧盟现有的语料库,因为其法律规定政府的会议必须翻译成所有的官方语言。不过,其他大部分系统必须特别打造自己的语料库,一直到现在这都是限制其成功的一个主要因素,于是大量的研究致力于从有限的数据更有效地学习。近来的研究更加聚焦于非监督式学习和半监督学习(英语:semi-supervised learning)的算法。这种算法,能够从没有人工注解理想答案的数据里学习。大体而言,这种学习比监督学习困难,并且在同量的数据下,通常产生的结果较不准确。不过没有注解的数据量极巨(包含了万维网),弥补了较不准确的缺点。近年来,深度学习技巧纷纷出炉 在自然语言处理方面获得最尖端的成果,例如语言模型、语法分析等等。理论上,NLP是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。由于理解(understanding)自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-complete)的问题。同时,在自然语言处理中,"理解"的定义也变成一个主要的问题。一些NLP面临的问题实例:不少的中文相关笑话即是利用类似结构的中文造句而成,此类笑话通常带有《中文博大精深》之类的词汇,叙述多以老外参加考试为背景。例子如下:‘ 某老外苦学汉语10年,到东方参加汉语考试。试题为“请解释下列句子”: 阿呆给长官送红包时,两个人的对话颇有意思。 长官:“你这是什么意思?” 阿呆:“没什么意思,意思意思。” 长官:“你这就不够意思了。” 阿呆:“小意思,小意思。” 长官:“你这人真有意思。” 阿呆:“其实也没有别的意思。” 长官:“那我就不好意思了。” 阿呆:“是我不好意思。”老外泪流满面,交白卷回国了。 ’第一,传统的基于句法-语义规则的理性主义方法过于复杂,随着语料库建设和语料库语言学的崛起,大规模真实文本的机器学习处理成为自然语言处理的主要选择。第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。统计自然语言处理运用了推测学、几率、统计的方法来解决上述,尤其是针对容易高度模糊的长串句子,当套用实际文法进行分析产生出成千上万笔可能性时所引发之难题。处理这些高度模糊句子所采用消歧的方法通常运用到语料库以及马可夫模型(Markov models)。统计自然语言处理的技术主要由同样自人工智能下与学习行为相关的子领域:机器学习及数据采掘所演进而成。

相关

  • 先天性障碍先天性障碍,又称先天性疾病、先天畸形、先天缺陷,是指发育中的胎儿因为遗传性疾病或发育环境等因素导致某个部位特征结构畸形,导致在婴儿出生时即有的病症,包括了身体(英语:Physic
  • 识字率识字率的定义为一个国家当中,十五岁以上的合法“劳动人口”中能读写文字的人的比率,就目前而言,全球平均识字率正在增加当中,但是世界上依然有不少失学的人口。识字率能反映出一
  • 鲑鱼鲑鱼(英语:salmon),其中大西洋鲑又音译为三文鱼,是数种鲑科鱼的通称。它们大部分为洄游性辐鳍鱼,是常见的可食用鱼类之一。共有300多个属种的鲑科鱼类生活在大西洋及太平洋,在非原
  • 中子温度中子温度,亦称中子能量,指的是自由中子的动能,单位通常是电子伏特。由于中子经过不同温度的减速剂会有不同的速度分布,一般可以使用温度来衡量中子的动能。中子的能量分布基本上
  • 未来未来可以视为描述一个事件经过一段时间后所变化的结果,和过去相对。从时间是线性的角度来说,是时间线上将要发生的那部分,也就是说,在时空上表示尚未发生的事的那部分。未来一直
  • 斐济面积以下资讯是以2016年估计国家领袖国内生产总值(购买力平价) 以下资讯是以2016年估计国内生产总值(国际汇率) 以下资讯是以2016年估计人类发展指数 以下资讯是以2018年估计斐
  • 阿耳忒弥斯神庙坐标:37°56′59″N 27°21′50″E / 37.94972°N 27.36389°E / 37.94972; 27.36389阿耳忒弥斯神庙(希腊语:Ναός της Αρτέμιδος στην Έφεσο)是希腊神
  • 武汉市卫生健康委员会1999年规定:印章直径4.2厘米,中央刊五角星,由武汉市人民政府制发。武汉市卫生健康委员会,简称武汉市卫生健康委或武汉市卫健委,是武汉市人民政府的组成部门之一。2018年3月,中华人
  • 体重不足体重不足指一个人的体重低于健康水平,通常以身高体重指数(BMI)作指标,BMI低于18.5属于体重不足。医学上体重不足的定义,未必适用于其他方面(如作为吸引力的指标)。体重不足最常见的
  • 唾液腺唾腺(英语:salivary gland;亦称唾液腺、涎腺)是脊椎动物的消化腺之一,位于口腔周围,人类的三大唾腺为腮腺(英语:parotid gland)(parotid gland)、颌下腺(英语:submandibular gland)(submand