汉语自动句法分析

✍ dations ◷ 2025-06-17 21:29:21 #自然语言处理,计算语言学,汉字信息处理

汉语自动句法分析包含对汉语句法的定义以及自动分析方法。

对于如何定义,从汉语语言学家的角度来看,往往是考虑如何生成句子的问题;从计算语言学家的角度来看,则往往是一个思考如何拆分句子的问题。计算语言学家需要为输入的句子实现一个自动拆分方法,这是句法分析的实现形式。

指定义拆分单元的集合,将输入的句子拆分为该集合的一个子集。一个拆分单元由两部分组成,一个部分是载体,是句子的片段;另一个是载体承载的信息,用于将载体组合成句子。例如:在依存句法分析方法下,拆分单元是(词,依存关系),其中‘词’是载体,‘依存关系’是词承载的信息;在某些依赖语义的句法分析方法下,拆分单元是(短语,语义功能)。

在一个有穷的拆分单元集合下,一个句子往往有多种拆分,即使不考虑由切分载体引起的歧义(例如依存句法分析的分词歧义),一个切分为n个载体的句子有mn个拆分,m为载体信息集合的大小。同时,一个句子一般只有一个正确拆分。因此需要选择最好的拆分。这个问题往往转化为从中选择概率最大的拆分。

依存语法最早由法国语言学家L.Tesniere(英语:Lucien_Tesnière)在其著作《结构句法基础》(1959年)中提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。

依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的关系。这种关系称为依存关系 (Dependency Relations)。一个依存关系连接两个词,分别是核心词 (Head) 和修饰词 (Dependent)。依存关系可以细分为不同的类型,表示两个词之间的句法关系 (Dependency Relation Types)。

依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。

相关

  • 乱码乱码指的是电脑系统不能显示正确的字符,而显示其他无意义的字符或空白,如一堆ASCII代码。这样所显示出来的文字统称为乱码。乱码是因为“所使用的字符的源码在本地计算机上使
  • 喷气发动机喷气发动机(Jet engine)是一种通过加速和排出的高速流体做功的热机或电机。它既可以输出推力,也可以输出轴功率。大部分喷气发动机都是依靠牛顿第三定律工作的内燃机,但也有一些
  • 斯里兰卡总理斯里兰卡民主社会主义共和国总理一职创建于1947年的锡兰自治领时期,当时称为锡兰总理,作为政府首脑一直到1978年。1972年,这个国家被称为“自由、主权和独立的斯里兰卡共和国”
  • 德国执法机构德国执法机构,包括德国联邦政府与各州政府成立的警务行政执法机构。德国境内警察事务在1871年德国第一次统一前后均由各州负责。 1919年,魏玛共和国宪法曾提出成立全国性警察
  • 薄樱鬼 ~新选组奇谭~曼迪传播《薄樱鬼 ~新选组奇谭~》(薄桜鬼 〜新選組奇譚〜(はくおうき しんせんぐみきたん))是由IDEA FACTORY(OTOMATE)于2008年9月18日发售的恋爱冒险游戏。2009年8月27日发售PSP版
  • 芦竹五福宫五福宫,旧称玄坛庙或元坛庙,俗称南崁五福宫、南崁元帅庙,位于台湾桃园市芦竹区五福里虎头山山麓,旧属桃涧堡南崁庙口庄。该庙主祀之玄坛元帅据传是由明郑士兵迎来,创建至今有三百
  • 鹤龙力三郎鹤竜力三郎(日语:鶴竜 力三郎/かくりゅう りきさぶろう ),本名马纳恩加加拉文·阿纳德(蒙古语:Мангалжалавын Ананд,拉丁转写:Mangaljalavyn Anand,1985年8月10日-),
  • 碧血金沙《碧血金沙》(英语:)是一部1948年的美国冒险新西部电影,由约翰·休斯顿编剧及导演,改编自1927年B·特拉文(英语:B. Traven)的同名小说(英语:The Treasure of the Sierra Madre)。本片讲
  • 利奥波德·约瑟夫·冯·道恩利奥波德·约瑟夫·道恩伯爵(Leopold Josef Graf Daun, Fürst von Thiano,1705年9月24日-1766年2月5日),又名利奥波德·约瑟夫·冯·道恩或道恩,Thiano亲王,奥地利陆军元帅。1705
  • 宝芝林宝芝林可以指: