汉语自动句法分析

✍ dations ◷ 2025-07-10 03:53:21 #自然语言处理,计算语言学,汉字信息处理

汉语自动句法分析包含对汉语句法的定义以及自动分析方法。

对于如何定义,从汉语语言学家的角度来看,往往是考虑如何生成句子的问题;从计算语言学家的角度来看,则往往是一个思考如何拆分句子的问题。计算语言学家需要为输入的句子实现一个自动拆分方法,这是句法分析的实现形式。

指定义拆分单元的集合,将输入的句子拆分为该集合的一个子集。一个拆分单元由两部分组成,一个部分是载体,是句子的片段;另一个是载体承载的信息,用于将载体组合成句子。例如:在依存句法分析方法下,拆分单元是(词,依存关系),其中‘词’是载体,‘依存关系’是词承载的信息;在某些依赖语义的句法分析方法下,拆分单元是(短语,语义功能)。

在一个有穷的拆分单元集合下,一个句子往往有多种拆分,即使不考虑由切分载体引起的歧义(例如依存句法分析的分词歧义),一个切分为n个载体的句子有mn个拆分,m为载体信息集合的大小。同时,一个句子一般只有一个正确拆分。因此需要选择最好的拆分。这个问题往往转化为从中选择概率最大的拆分。

依存语法最早由法国语言学家L.Tesniere(英语:Lucien_Tesnière)在其著作《结构句法基础》(1959年)中提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。

依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的关系。这种关系称为依存关系 (Dependency Relations)。一个依存关系连接两个词,分别是核心词 (Head) 和修饰词 (Dependent)。依存关系可以细分为不同的类型,表示两个词之间的句法关系 (Dependency Relation Types)。

依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。

相关

  • 发声态发声态(英语:phonation)指发声时声门活动的状态。最常见的两种发声态,是清声(喉开态)和浊声(常态浊声),其差异在于声带是否振动,清声不振动,而浊声振动。带清声的音,叫清音;带浊声的音,叫
  • 萧泰然萧泰然(1938年1月1日- 2015年2月24日),台湾音乐家。出生于日治台湾高雄州凤山郡凤山街(今高雄市凤山区)。集钢琴家、指挥家、作曲家于一身。一生致力于台湾本土音乐融入西方音乐的
  • 时间箭头物理学在微观的层次几乎完全是时间对称的,这意味着物理学定律在时间流易的方向倒转之后仍然保持为真。但是在宏观层次却显得并不是那么回事:时间存在着明显的方向性。时间箭头
  • 甲基丙二酸甲基丙二酸 (Methylmalonic acid,MMA)是一种二羧酸,是丙二酸的甲基化衍生物,丁二酸(琥珀酸)的同分异构体。生物体内,甲基丙二酸与辅酶A通过硫酯键结合成甲基丙二酰辅酶A,再通过甲基
  • 双重子态双重子态(Dibaryon)是一种假想粒子,属于奇异介子中的六夸克态,它们有六颗价夸克,而一般的重子则只有三颗夸克。它被预测为较稳定的粒子。当中H双重子早于1977年时已被提出,它具有
  • 丹麦国防军丹麦国防军(Forsvaret)是丹麦王国的军队,负责丹麦本土与海外领地格陵兰、法罗群岛的国防事务。依照丹麦宪法,丹麦君主是丹麦国防军法律意义上的最高统帅;但依照丹麦国防法,丹麦国
  • 李森 (清朝)李森(?-1851年),字韡鄂,号春谷,清朝官员。江西永新县人。李森之父为诸生,在本地教书为业,且精通医术,救人甚众。李森自幼聪颖,少年补为生员,学习经学,兼通天文、地理、筮算等书,特别精于《
  • 张瑃张瑃(1624年-17世纪),字伯珩,泽州阳城县人,明朝、清朝政治人物。张瑃自小聪明过人,读书过目不忘,自童生到崇祯十五年(1642年)成举人只需要五年,次年(1643年)仅二十岁就中进士。顺治初年获
  • Heavens-AboveHeavens-Above是一家由克里斯·皮特创建并运营的非营利网站。网站的目的是为了帮助人们不需望远镜等光学仪器就可以观察并追踪环绕地球的人造卫星,特别是对ISS,铱星闪光,航天飞
  • 角眼沙蟹角眼沙蟹(学名:)为沙蟹科沙蟹属的动物。分布于日本、夏威夷、南太平洋、澳大利亚、泰国、印度、红海、非洲东岸及南岸、台湾等地,生活环境为海水,多见于印度太平洋热带区近高潮线