自然语言理解

✍ dations ◷ 2025-07-19 00:42:26 #自然语言理解
自然语言理解是研究如何让电脑读懂人类语言的一门技术,是自然语言处理技术中最困难的一项。自然语言理解这个概括的术语,适用于多样的电脑应用,从小型、相对简单之事,例如发给机器人的简短命令,到高度复杂的任务,例如完全读懂报纸新闻或理解一段诗。许多真实世界的运用介于两个极端之间,例如文本分类用于自动分析电邮,并且将其转发至公司适合的部门,并不需要深切理解文本,但是比起结构固定的数据库之查询,要处理的词汇以及句法更广更多样。自然语言理解系统设定的目标深度与广度,决定其复杂度(连带隐含的挑战)与处理的应用类型。系统的广度以其词汇及文法的多寡来衡量;系统的深度以其相对于母语人士的理解程度来衡量。“近似英语”指令的翻译程式属于最窄浅的一种,但处理的应用也少。狭窄但深入的系统探究并模拟理解的机制,但应用范围仍然有限。超越简单关键字对比的文件内容理解系统,例如判断新闻稿是否适合某读者,属于比较宽广的系统,也算复杂,但是仍然有些浅薄。既广且深的系统,现今的尖端技术仍无法达成。无论什么手法,多数自然语言理解系统包含一些共同的元件。系统需要其语言的词汇表(英语:lexicon)、语法分析器以及 语法的规则,从而分解语句成为内在的表述。建立具有适当本体的、多量的词汇表,是件大工程,例如WordNet的词汇表耗费多年人力。系统也需要“语义理论”去引导理解。语言理解系统的解析能力有赖于使用的语义理论。互竞的语义理论,作为电脑自动语义解析的基础,各有其特定的平衡取舍。理论从“素朴语义学(英语:naive semantics)”或 “随机语义分析(英语:stochastic semantic analysis)”到利用“语用学”从上下文得出意涵。自然语言理解的高级应用也会在其框架内纳入逻辑推理,其过程是将得出的意涵对应到一阶逻辑的一组论断,然后用演绎推理得到结论。自然语言理解的文本脉络处理可能遭遇难关,各种各样的例子与反例,造成了脉络形式模拟的多重途径,各有特定的强弱之处。

相关

  • 结节病结节病(英文:Sarcoidosis,来自单词sarc,“肉体”的意思,并加上后缀-oid表示“像..似的”或“有质量的”,与后缀-osis,“疾病或非正常情况”的意思)英文中有时也被叫做sarcoid(简称),贝
  • 人血清白蛋白结构 / ECOD白蛋白(英语:Albumin)又称清蛋白,旧称胉,是属于球状蛋白的一种蛋白质,但并不是球蛋白。在人体内它最重要的作用是维持胶体渗透压。在奶和蛋里也有白蛋白。人体内白蛋白
  • 豆类豆类指双子叶植物中离瓣植物豆科的泛称,因而概称为豆科植物,亦或称豆子,指其使用的种子。本文特指供作食用或作为动物饲料的种类。豆类植物种类极多,全世界有近二万种,大部分用作
  • 茶荣省茶荣省(越南语:Tỉnh Trà Vinh/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKSCS-UNI-H","M
  • University of Utah犹他大学(University of Utah),位于美国犹他州的盐湖城市,是一所综合性公立大学,由耶稣基督后期圣徒教会领袖杨百翰于1850年建立。作为该州的旗舰大学,它提供100多个本科专业和92
  • 任纪舜任纪舜(1935年2月6日-),中国地质学家。出生于陕西华阴。1955年毕业于西北大学地质系。1997年当选为中国科学院院士。中国地质科学院地质研究所研究员。世界地质图委员会(CGMW)副
  • 聚醚醚酮聚醚醚酮(polyetheretherketone,PEEK),为线性芳香族高分子化合物,构成单位为氧-对亚苯基-羰-对亚苯基,为半结晶性,热塑性塑料。PEEK是由英国帝国化学工业公司公司(ICI)于1978年开发出
  • 小肠血管发育不良肠道血管发育不良是肠道血管异常增生而引起下消化道慢性失血。由于是间断性出血,诊断检查时不出血,因此难诊断。肠道血管的异常状态,无法解释的肠道出血与贫血。损害常是多重的
  • 日侨学校高雄市日侨学校(日语:高雄日本人学校/たかおにほんじんがっこう Takao Nihonjin Gakkō */?),为台湾的一所日侨学校(英语:Nihonjin gakkō),该学校于1969年在台湾高雄市三民区河北
  • 丙种球蛋白γ球蛋白(英语:Gamma globulins,又译为丙球蛋白)是球状蛋白质的一类,通过血清蛋白质电泳分别出来,最常见的γ球蛋白为免疫球蛋白(抗体),但并非所有免疫球蛋白都属于γ球蛋白,一些γ球