汉语自动句法分析

✍ dations ◷ 2025-12-01 21:35:53 #自然语言处理,计算语言学,汉字信息处理

汉语自动句法分析包含对汉语句法的定义以及自动分析方法。

对于如何定义,从汉语语言学家的角度来看,往往是考虑如何生成句子的问题;从计算语言学家的角度来看,则往往是一个思考如何拆分句子的问题。计算语言学家需要为输入的句子实现一个自动拆分方法,这是句法分析的实现形式。

指定义拆分单元的集合,将输入的句子拆分为该集合的一个子集。一个拆分单元由两部分组成,一个部分是载体,是句子的片段;另一个是载体承载的信息,用于将载体组合成句子。例如:在依存句法分析方法下,拆分单元是(词,依存关系),其中‘词’是载体,‘依存关系’是词承载的信息;在某些依赖语义的句法分析方法下,拆分单元是(短语,语义功能)。

在一个有穷的拆分单元集合下,一个句子往往有多种拆分,即使不考虑由切分载体引起的歧义(例如依存句法分析的分词歧义),一个切分为n个载体的句子有mn个拆分,m为载体信息集合的大小。同时,一个句子一般只有一个正确拆分。因此需要选择最好的拆分。这个问题往往转化为从中选择概率最大的拆分。

依存语法最早由法国语言学家L.Tesniere(英语:Lucien_Tesnière)在其著作《结构句法基础》(1959年)中提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。

依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的关系。这种关系称为依存关系 (Dependency Relations)。一个依存关系连接两个词,分别是核心词 (Head) 和修饰词 (Dependent)。依存关系可以细分为不同的类型,表示两个词之间的句法关系 (Dependency Relation Types)。

依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。

相关

  • 夏尔·路易·阿方斯·拉韦朗夏尔·路易·阿方斯·拉韦朗 (法语:Charles Louis Alphonse Laveran,1845年6月18日-1922年5月18日),法国医师。1880年在阿尔吉利亚君士坦丁的军医院工作时,拉韦朗发现疟疾是由一种
  • 引力助推在航天动力学和宇宙空间动力学中,所谓的重力助推(gravity assist;也被称为重力弹弓效应或绕行星变轨)是利用行星或其他天体的相对运动和引力改变飞行器的轨道和速度,以此来节省燃
  • 二瓣膜二尖瓣(拉丁语:valva bicuspidalis;英语:bicuspid valve),又称僧帽瓣(拉丁语:valva mitralis;英语:mitral valve),或左房室瓣(拉丁语:valva atrioventricularis sinistr;英语:left atriovent
  • 惯性导航系统惯性导航系统是一个使用加速计和陀螺仪来测量物体的加速度和角速度,并用计算机来连续估算运动物体位置、姿态和速度的辅助导航系统。它不需要一个外部参考系,常常被用在飞机,潜
  • 南坎南坎(缅甸语:နမ့်ခမ်းမြို့;掸语:ၼမ်ႉၶမ်း)是缅甸掸邦西北部的一个镇区(相当于县),是缅甸北部的重镇和门户,位于瑞丽江南岸,与中华人民共和国瑞丽市隔江相望。孟
  • 七美屿七美屿,是台湾澎湖群岛最南端的一个岛屿。又称七美岛,旧名大屿。七美屿经纬度为东经119度40分、北纬23度16分,约在县治马公市南南西方29海里(54公里)处。东南东距台南市约48海里,
  • 伊斯坦布尔阿依登大学伊斯坦布尔阿依登大学(土耳其语:İstanbul Aydın Üniversitesi)是一所综合性基金会大学。坐落在土耳其伊斯坦布尔。学校拥有10个学院,3个研究生院,和3个研究机构。成立于2003
  • 尼古拉一世 (俄国)尼古拉一世·巴甫洛维奇(Николай I Павлович,1)(1796年7月6日-1855年3月2日),是俄罗斯帝国皇帝,1825年至1855年在位。保罗一世第三子。其兄亚历山大一世死后无男嗣,次
  • 秘密客2《秘密客2》(英语:Mimic 2)是一部2001年的美国科幻惊悚电影,由让·德·塞贡扎克(英语:Jean de Segonzac)执导,艾莉丝·高朗士、布鲁诺·坎波斯主演。为1997年电影《秘密客》的续集。
  • 青玉案青玉案,词牌名,别称《横塘路》、《西湖路》。双调六十七字,前后阕各五仄韵,上去通押。平平仄仄平平仄,仄仄仄平平仄( 上三下三 )。仄仄平平平仄仄。仄平平仄,仄平平仄,仄仄平平仄。平