首页 >
自然语言处理
✍ dations ◷ 2025-04-03 13:50:14 #自然语言处理
自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。自然语言处理大体是从1950年代开始,虽然更早期也有作为。1950年,图灵发表论文“计算机器与智能(英语:Computing Machinery and Intelligence)”,提出现在所谓的“图灵测试”作为判断智能的条件。1954年的乔治城实验(英语:Georgetown-IBM experiment)涉及全部自动翻译(英语:automatic translation)超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。不过实际进展远低于预期,1966年的ALPAC报告(英语:ALPAC report)发现十年研究未达预期目标,机器翻译的研究经费遭到大幅削减。一直到1980年代末期,统计机器翻译系统发展出来,机器翻译的研究才得以更上一层楼。1960年代发展特别成功的NLP系统包括SHRDLU(英语:SHRDLU)——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统,以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA(英语:ELIZA)——几乎未运用人类思想和感情的消息,有时候却能呈现令人讶异地类似人之间的交互。“病人”提出的问题超出ELIZA 极小的知识范围之时,可能会得到空泛的回答。例如问题是“我的头痛”,回答是“为什么说你头痛?”1970年代,程序员开始设计“概念本体论”(conceptual ontologies)的程序,将现实世界的信息,架构成电脑能够理解的数据。实例有MARGIE、SAM、PAM、TaleSpin、QUALM、Politics以及Plot Unit。许多聊天机器人在这一时期写成,包括PARRY(英语:PARRY) 、Racter(英语:Racter) 以及Jabberwacky(英语:Jabberwacky) 。一直到1980年代,多数自然语言处理系统是以一套复杂、人工订定的规则为基础。不过从1980年代末期开始,语言处理引进了机器学习的算法,NLP产生革新。成因有两个:运算能力稳定增加(参见摩尔定律);以及乔姆斯基 语言学理论渐渐丧失主导(例如转换-生成文法)。该理论的架构不倾向于语料库——机器学习处理语言所用方法的基础。有些最早期使用的机器学习算法,例如决策树,是硬性的、“如果-则”规则组成的系统,类似当时既有的人工订定的规则。不过词性标记(英语:part-of-speech tagging)将隐马尔可夫模型引入NLP,并且研究日益聚焦于软性的、以几率做决定的统计模型,基础是将输入数据里每一个特性赋予代表其分量的数值。许多语音识别现今依赖的缓存语言模型(英语:cache language model)即是一种统计模型的例子。这种模型通常足以处理非预期的输入数据,尤其是输入有错误(真实世界的数据总免不了),并且在集成到包含多个子任务的较大系统时,结果比较可靠。许多早期的成功属于机器翻译领域,尤其归功IBM的研究,渐次发展出更复杂的统计模型。这些系统得以利用加拿大和欧盟现有的语料库,因为其法律规定政府的会议必须翻译成所有的官方语言。不过,其他大部分系统必须特别打造自己的语料库,一直到现在这都是限制其成功的一个主要因素,于是大量的研究致力于从有限的数据更有效地学习。近来的研究更加聚焦于非监督式学习和半监督学习(英语:semi-supervised learning)的算法。这种算法,能够从没有人工注解理想答案的数据里学习。大体而言,这种学习比监督学习困难,并且在同量的数据下,通常产生的结果较不准确。不过没有注解的数据量极巨(包含了万维网),弥补了较不准确的缺点。近年来,深度学习技巧纷纷出炉 在自然语言处理方面获得最尖端的成果,例如语言模型、语法分析等等。理论上,NLP是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。由于理解(understanding)自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-complete)的问题。同时,在自然语言处理中,"理解"的定义也变成一个主要的问题。一些NLP面临的问题实例:不少的中文相关笑话即是利用类似结构的中文造句而成,此类笑话通常带有《中文博大精深》之类的词汇,叙述多以老外参加考试为背景。例子如下:‘
某老外苦学汉语10年,到东方参加汉语考试。试题为“请解释下列句子”:
阿呆给长官送红包时,两个人的对话颇有意思。
长官:“你这是什么意思?”
阿呆:“没什么意思,意思意思。”
长官:“你这就不够意思了。”
阿呆:“小意思,小意思。”
长官:“你这人真有意思。”
阿呆:“其实也没有别的意思。”
长官:“那我就不好意思了。”
阿呆:“是我不好意思。”老外泪流满面,交白卷回国了。
’第一,传统的基于句法-语义规则的理性主义方法过于复杂,随着语料库建设和语料库语言学的崛起,大规模真实文本的机器学习处理成为自然语言处理的主要选择。第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。统计自然语言处理运用了推测学、几率、统计的方法来解决上述,尤其是针对容易高度模糊的长串句子,当套用实际文法进行分析产生出成千上万笔可能性时所引发之难题。处理这些高度模糊句子所采用消歧的方法通常运用到语料库以及马可夫模型(Markov models)。统计自然语言处理的技术主要由同样自人工智能下与学习行为相关的子领域:机器学习及数据采掘所演进而成。
相关
- 炮弹病毒水泡病毒属 Vesiculovirus 丽沙病毒属 Lyssavirus 短时热病毒属 Ephemerovirus 胞内水稻黄矮炮弹病毒属 Cytorhabdovirus 核内水稻黄矮炮弹病毒 Nucleorhabdovirus 粒外弹状
- 举腿试验举腿试验(straight leg raise)也称为拉塞格证候(Lasègue's sign)及拉塞格试验(Lasègue's test),是对于下背痛病人的一种检查方式,可检查是否有潜在的椎间盘脱出症,多半会在L5,也就是
- 头孢特仑头孢特仑(其国际非专利药品名称为“Cefteram”)是一种第三代头孢菌素。羧基青霉素:羧苄西林(卡茚西林) · 替卡西林 · 替莫西林 脲基青霉素:阿洛西林 · 哌拉西林 · 美
- 广泛性焦虑症广泛性焦虑障碍(英语:Generalized Anxiety Disorder),是经常为小事而感到持续焦虑的状态,这种焦虑与周围任何特定的情景都没有关系,而一般是由过度的担忧引起。大部分人有时会感到
- 乏燃料池乏核燃料是经受过辐射照射、使用过的核燃料,通常是由核电站的核反应堆产生。这种燃料无法继续维持核反应。乏核燃料中仍然包含有大量的放射性元素,因此具有放射性,如果不加以妥
- 核子反应堆列表这个列表将全球核反应堆根据国家或地区的英文名称按字母排列。除了注记外,所有的反应堆由National Atomic Energy Commission拥有及营运。四部核电站均由台湾电力公司营运。I
- 基督教犹太教与基督教:犹太教是西亚地区的游牧民族希伯来人中产生的宗教,后来在犹太教的基础上衍生出了基督教。犹太教和基督教有相同或相近之处,也有不同或相反之处。基督教借用了犹
- 西班牙流行性感冒1918年流感大流行(英语:1918 flu pandemic)是于1918年1月至1920年12月间爆发的全球性甲型H1N1流感疫情,此次疫情造成全世界5亿人感染,1.7千万至5千万死亡,传播范围达到太平洋群岛
- 建教合作合作教育(英语:Cooperative education,港澳称为合作教育,台湾称为建教合作),是一种结合课堂教学与实际工作经验的结构化教学方法。作为教学过程的一部分,合作教育经验通常被计入学
- 比较比照法(comparative method)或比较法是一套比较语言学的研究方法,语言学家用它来揭示语言间的源流关系。它的任务是通过同源词的比较来证明两种或多种切实存在或存在过的语言拥