汉语自动句法分析

✍ dations ◷ 2025-02-23 16:55:26 #自然语言处理,计算语言学,汉字信息处理

汉语自动句法分析包含对汉语句法的定义以及自动分析方法。

对于如何定义,从汉语语言学家的角度来看,往往是考虑如何生成句子的问题;从计算语言学家的角度来看,则往往是一个思考如何拆分句子的问题。计算语言学家需要为输入的句子实现一个自动拆分方法,这是句法分析的实现形式。

指定义拆分单元的集合,将输入的句子拆分为该集合的一个子集。一个拆分单元由两部分组成,一个部分是载体,是句子的片段;另一个是载体承载的信息,用于将载体组合成句子。例如:在依存句法分析方法下,拆分单元是(词,依存关系),其中‘词’是载体,‘依存关系’是词承载的信息;在某些依赖语义的句法分析方法下,拆分单元是(短语,语义功能)。

在一个有穷的拆分单元集合下,一个句子往往有多种拆分,即使不考虑由切分载体引起的歧义(例如依存句法分析的分词歧义),一个切分为n个载体的句子有mn个拆分,m为载体信息集合的大小。同时,一个句子一般只有一个正确拆分。因此需要选择最好的拆分。这个问题往往转化为从中选择概率最大的拆分。

依存语法最早由法国语言学家L.Tesniere(英语:Lucien_Tesnière)在其著作《结构句法基础》(1959年)中提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。

依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的关系。这种关系称为依存关系 (Dependency Relations)。一个依存关系连接两个词,分别是核心词 (Head) 和修饰词 (Dependent)。依存关系可以细分为不同的类型,表示两个词之间的句法关系 (Dependency Relation Types)。

依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。

相关

  • 马来西亚博特拉大学雪兰莪沙登 (总校)博特拉大学(马来语:Universiti Putra Malaysia)简称:博大(UPM)(又称布特拉大学,或布大),是位于马来西亚首都吉隆坡南面附近高科技地段,地处马来西亚硅谷的一所国立大学
  • 肝胰脏肝胰脏(英语:hepatopancreas,亦称为消化腺或中肠腺)是节肢动物、软体动物门及鱼类消化管的一种器官,成泡状或管状。与哺乳动物中分开的肝与胰相同,该器官的功能包括了产生消化酶和
  • 卢森堡中央银行卢森堡中央银行(法语:Banque Centrale du Luxembourg, BCL)位于卢森堡大公国,成立于1998年,和欧洲中央银行同时成立。依据在4月22日和12月23日法律,卢森堡中央银行正式成为欧洲中
  • 氨基甲酸铵442 mbar(45°C)氨基甲酸铵是一种白色的晶体,分子式为 NH2COONH4,在35°C开始分解,并会在59°C时完全分解成氨气和二氧化碳。 氨基甲酸铵是化学工业上尿素生产过程的生成物,加热
  • 李绅李绅(772年-846年),字公垂,唐亳州(今属安徽)人,生于乌程(今浙江湖州),长于润州无锡(今属江苏)。唐朝大臣,曾参与牛李党争。亦为诗人,文学上,参与新乐府运动。李绅生于唐大历七年(772年),曾祖父
  • 美国精神科协会美国心理学会(英语:American Psychological Association)是美国的一个心理学领域的专业组织,成立于1892年7月,大约有15万名会员,年度预算约7000万美元。美国心理学会还以“APA格式
  • 南风窗《南风窗》,是中华人民共和国境内的一份时事政治类综合双周刊杂志,由广州日报报业集团主管,立场中间偏左。读者以政府机关、学术机构和大型企业的中坚力量最为集中,是在中华人民
  • 海军情报局美国海军情报局(The Office of Naval Intelligence,ONI)是美国海军军事情报机构。于1882年成立,主要是为了推动美国海军现代化建设。它是美国情报界最古老的成员,也是美国海军情
  • 1988年欧洲足球锦标赛1988年欧洲足球锦标赛(Euro 88)于1988年6月10日至25日在西德举行。本届比赛是由欧洲足联主办的第八届欧洲足球锦标赛。 本届决赛圈赛制及参赛队数均与去届相同,8支球队首先分为
  • 相阿弥相阿弥(日语:相阿弥,?-1525年),日本室町时代山水画画家之一,他充分学习中国绘画的相关技巧,形成自身独特的艺术风格。 在16世纪的日本画坛产生了极大影响力。Etō, Shun, (from the