汉语自动句法分析

✍ dations ◷ 2025-05-22 02:14:29 #自然语言处理,计算语言学,汉字信息处理

汉语自动句法分析包含对汉语句法的定义以及自动分析方法。

对于如何定义,从汉语语言学家的角度来看,往往是考虑如何生成句子的问题;从计算语言学家的角度来看,则往往是一个思考如何拆分句子的问题。计算语言学家需要为输入的句子实现一个自动拆分方法,这是句法分析的实现形式。

指定义拆分单元的集合,将输入的句子拆分为该集合的一个子集。一个拆分单元由两部分组成,一个部分是载体,是句子的片段;另一个是载体承载的信息,用于将载体组合成句子。例如:在依存句法分析方法下,拆分单元是(词,依存关系),其中‘词’是载体,‘依存关系’是词承载的信息;在某些依赖语义的句法分析方法下,拆分单元是(短语,语义功能)。

在一个有穷的拆分单元集合下,一个句子往往有多种拆分,即使不考虑由切分载体引起的歧义(例如依存句法分析的分词歧义),一个切分为n个载体的句子有mn个拆分,m为载体信息集合的大小。同时,一个句子一般只有一个正确拆分。因此需要选择最好的拆分。这个问题往往转化为从中选择概率最大的拆分。

依存语法最早由法国语言学家L.Tesniere(英语:Lucien_Tesnière)在其著作《结构句法基础》(1959年)中提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。

依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的关系。这种关系称为依存关系 (Dependency Relations)。一个依存关系连接两个词,分别是核心词 (Head) 和修饰词 (Dependent)。依存关系可以细分为不同的类型,表示两个词之间的句法关系 (Dependency Relation Types)。

依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。

相关

  • 末日幻想末日小说(英语:apocalyptic fiction)是科学幻想中幻想由于核战争、瘟疫、丧尸、外星生命入侵、撞击事件、人工智能叛变、技术奇异点、种族退化、超自然现象、末世论、地球的未
  • 繁殖的能力适应度(英语:Fitness),又可称适存度或生殖成就,是生物学,特别是群体遗传学、数理生物学中用来描述拥有某一特定基因型的个体,在繁殖上的成功率或能力。假如带有不同基因型的个体拥
  • 希格斯粒子125.09 GeV(CMS+ATLAS) (统计误差:±0.21)希格斯玻色子(英语:Higgs boson)是标准模型里的一种基本粒子,是一种玻色子,自旋为零,宇称为正值,不带电荷、色荷,极不稳定,生成后会立刻衰变。希
  • 约翰·迈克尔斯约翰·迈克尔·辛吉斯(英语:John Michael Higgins,1963年2月12日-)是美国的一位演员,出生在波士顿。他出演过《离婚快乐(英语:Happily Divorced)》等电视剧。
  • 韩式茶汤饭馔朝鲜传统茶,或称韩国传统茶,是朝鲜半岛的传统茶类饮料,除了茶叶冲泡的茶之外,还有以其他材料制作的代用茶,如草本茶、果茶等。人参茶是用高丽参作的一种茶。所使用的高丽参
  • 莲茸莲茸,亦作莲蓉,是在广式点心中常见、由莲子制成的馅料。可将莲子浸透加水煮,熟后隔水�碎,再放入镬中加砂糖和油炒、再加入麦芽糖拌匀即成莲蓉。
  • 2017年12月逝世人物列表2017年12月逝世人物列表,是用于汇总2017年12月期间逝世人物的列表。
  • 乙二醇双氨乙基醚四乙酸EGTA(ethylene glycol tetraacetic acid,乙二醇双氨乙基醚四乙酸)是一种氨基多羧酸(英语:aminopolycarboxylic acid)螯合剂,与更为熟知的EDTA有相似的结构。与EDTA相比,EGTA对镁离子
  • 八美图《八美图》(法语:8 Femmes)是一部2002年由法国和意大利合拍的喜剧悬疑歌舞电影。导演是法兰索瓦·欧容,是根据Robert Thomas的戏剧改编而成。电影的名字是,以区别于1972年的戏剧
  • 小城商业网小城商业网(Small City Commerce)是一个泛欧洲专案,以提高强化中小企业能量。目前欧洲中小企业是骨干力量,是欧洲经济的主要来源,也创造主要新增就业和经济增长。 为了中小企业保