自然语言处理

✍ dations ◷ 2025-11-19 02:23:27 #自然语言处理
自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。自然语言处理大体是从1950年代开始,虽然更早期也有作为。1950年,图灵发表论文“计算机器与智能(英语:Computing Machinery and Intelligence)”,提出现在所谓的“图灵测试”作为判断智能的条件。1954年的乔治城实验(英语:Georgetown-IBM experiment)涉及全部自动翻译(英语:automatic translation)超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。不过实际进展远低于预期,1966年的ALPAC报告(英语:ALPAC report)发现十年研究未达预期目标,机器翻译的研究经费遭到大幅削减。一直到1980年代末期,统计机器翻译系统发展出来,机器翻译的研究才得以更上一层楼。1960年代发展特别成功的NLP系统包括SHRDLU(英语:SHRDLU)——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统,以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA(英语:ELIZA)——几乎未运用人类思想和感情的消息,有时候却能呈现令人讶异地类似人之间的交互。“病人”提出的问题超出ELIZA 极小的知识范围之时,可能会得到空泛的回答。例如问题是“我的头痛”,回答是“为什么说你头痛?”1970年代,程序员开始设计“概念本体论”(conceptual ontologies)的程序,将现实世界的信息,架构成电脑能够理解的数据。实例有MARGIE、SAM、PAM、TaleSpin、QUALM、Politics以及Plot Unit。许多聊天机器人在这一时期写成,包括PARRY(英语:PARRY) 、Racter(英语:Racter) 以及Jabberwacky(英语:Jabberwacky) 。一直到1980年代,多数自然语言处理系统是以一套复杂、人工订定的规则为基础。不过从1980年代末期开始,语言处理引进了机器学习的算法,NLP产生革新。成因有两个:运算能力稳定增加(参见摩尔定律);以及乔姆斯基 语言学理论渐渐丧失主导(例如转换-生成文法)。该理论的架构不倾向于语料库——机器学习处理语言所用方法的基础。有些最早期使用的机器学习算法,例如决策树,是硬性的、“如果-则”规则组成的系统,类似当时既有的人工订定的规则。不过词性标记(英语:part-of-speech tagging)将隐马尔可夫模型引入NLP,并且研究日益聚焦于软性的、以几率做决定的统计模型,基础是将输入数据里每一个特性赋予代表其分量的数值。许多语音识别现今依赖的缓存语言模型(英语:cache language model)即是一种统计模型的例子。这种模型通常足以处理非预期的输入数据,尤其是输入有错误(真实世界的数据总免不了),并且在集成到包含多个子任务的较大系统时,结果比较可靠。许多早期的成功属于机器翻译领域,尤其归功IBM的研究,渐次发展出更复杂的统计模型。这些系统得以利用加拿大和欧盟现有的语料库,因为其法律规定政府的会议必须翻译成所有的官方语言。不过,其他大部分系统必须特别打造自己的语料库,一直到现在这都是限制其成功的一个主要因素,于是大量的研究致力于从有限的数据更有效地学习。近来的研究更加聚焦于非监督式学习和半监督学习(英语:semi-supervised learning)的算法。这种算法,能够从没有人工注解理想答案的数据里学习。大体而言,这种学习比监督学习困难,并且在同量的数据下,通常产生的结果较不准确。不过没有注解的数据量极巨(包含了万维网),弥补了较不准确的缺点。近年来,深度学习技巧纷纷出炉 在自然语言处理方面获得最尖端的成果,例如语言模型、语法分析等等。理论上,NLP是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。由于理解(understanding)自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-complete)的问题。同时,在自然语言处理中,"理解"的定义也变成一个主要的问题。一些NLP面临的问题实例:不少的中文相关笑话即是利用类似结构的中文造句而成,此类笑话通常带有《中文博大精深》之类的词汇,叙述多以老外参加考试为背景。例子如下:‘ 某老外苦学汉语10年,到东方参加汉语考试。试题为“请解释下列句子”: 阿呆给长官送红包时,两个人的对话颇有意思。 长官:“你这是什么意思?” 阿呆:“没什么意思,意思意思。” 长官:“你这就不够意思了。” 阿呆:“小意思,小意思。” 长官:“你这人真有意思。” 阿呆:“其实也没有别的意思。” 长官:“那我就不好意思了。” 阿呆:“是我不好意思。”老外泪流满面,交白卷回国了。 ’第一,传统的基于句法-语义规则的理性主义方法过于复杂,随着语料库建设和语料库语言学的崛起,大规模真实文本的机器学习处理成为自然语言处理的主要选择。第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。统计自然语言处理运用了推测学、几率、统计的方法来解决上述,尤其是针对容易高度模糊的长串句子,当套用实际文法进行分析产生出成千上万笔可能性时所引发之难题。处理这些高度模糊句子所采用消歧的方法通常运用到语料库以及马可夫模型(Markov models)。统计自然语言处理的技术主要由同样自人工智能下与学习行为相关的子领域:机器学习及数据采掘所演进而成。

相关

  • 拉米夫定拉米夫定(英语:Lamivudine,一般称为3TC),是一种抗反转录病毒药物,用以预防及治疗艾滋病,若没有其他药物选择时,也可以拿来治疗慢性乙型肝炎。拉米夫定治疗HIV-1和HIV-2都很有效。通
  • 除草剂除草剂又称杀草剂,是一类用来杀死特定植物的药剂,全球约有233种。这些药剂能够选择性地作用于特定目标,使其他对于人类有用的农作物不受伤害,或受的伤害较小。有些除草剂能妨碍
  • 载体蛋白载体蛋白(英语:carrier protein)简称“载体”,是参与离子、小分子或高分子跨越生物膜进行运输的一类多回旋折叠蛋白质。载体蛋白都是跨膜蛋白,它们能在协助扩散或主动运输过程中
  • 常染色体显性多囊肾常染色体显性多囊肾(Autosomal dominant polycystic kidney disease,ADPKD)又称为成人型多囊肾,是一种遗传性全身性疾病,主要影响肾脏,但也可能会影响其他器官,如肝脏、胰腺、脑动
  • 酯酶酯酶(英语:esterase)是一种水解酶催化剂,可在水分子的参与下,经由水解作用,将酯类切割成酸类与醇类。此类酶参与多种生物化学反应,依其专属受质、蛋白质结构,以及功能而有不同。脂酶
  • 卡帕多细亚卡帕多细亚(/kæpəˈdoʊʃə/; also Capadocia; 土耳其语:Kapadokya, 希腊语:Καππαδοκία Kappadokía,辞源: 古波斯语:Katpatuka),又称为卡帕达奇亚,亚洲历史上的一个地
  • 教父时期教父(英语:Church Fathers,或 Fathers of the church),又译为天主教早期教父(Early Church Fathers),是天主教会(基督教)早期宗教作家及宣教师的统称。他们的著作被认定具备权威,可以作
  • 血液循环共振理论血液循环共振理论是一种关于人体血液循环的理论,由以台湾中央研究院物理所的王唯工教授(Wei-Kung Wang)为首等人所提出,认为此理论补足并解释了一些现代循环生理学(circular p
  • FOXP22A07, 2AS5· chromatin binding · double-stranded DNA binding · sequence-specific DNA binding transcription factor activity · sequence-specific enhancer bi
  • 新字体陶文 ‧ 甲骨文 ‧ 金文 ‧ 古文 ‧ 石鼓文籀文 ‧ 鸟虫书 ‧ 篆书(大篆 ‧  小篆)隶书 ‧ 楷书 ‧ 行书 ‧ 草书漆书 ‧  书法 ‧ 飞白书笔画 ‧