汉语自动句法分析

✍ dations ◷ 2024-12-22 23:20:10 #自然语言处理,计算语言学,汉字信息处理

汉语自动句法分析包含对汉语句法的定义以及自动分析方法。

对于如何定义,从汉语语言学家的角度来看,往往是考虑如何生成句子的问题;从计算语言学家的角度来看,则往往是一个思考如何拆分句子的问题。计算语言学家需要为输入的句子实现一个自动拆分方法,这是句法分析的实现形式。

指定义拆分单元的集合,将输入的句子拆分为该集合的一个子集。一个拆分单元由两部分组成,一个部分是载体,是句子的片段;另一个是载体承载的信息,用于将载体组合成句子。例如:在依存句法分析方法下,拆分单元是(词,依存关系),其中‘词’是载体,‘依存关系’是词承载的信息;在某些依赖语义的句法分析方法下,拆分单元是(短语,语义功能)。

在一个有穷的拆分单元集合下,一个句子往往有多种拆分,即使不考虑由切分载体引起的歧义(例如依存句法分析的分词歧义),一个切分为n个载体的句子有mn个拆分,m为载体信息集合的大小。同时,一个句子一般只有一个正确拆分。因此需要选择最好的拆分。这个问题往往转化为从中选择概率最大的拆分。

依存语法最早由法国语言学家L.Tesniere(英语:Lucien_Tesnière)在其著作《结构句法基础》(1959年)中提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。

依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的关系。这种关系称为依存关系 (Dependency Relations)。一个依存关系连接两个词,分别是核心词 (Head) 和修饰词 (Dependent)。依存关系可以细分为不同的类型,表示两个词之间的句法关系 (Dependency Relation Types)。

依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。

相关

  • 酸性气体酸性气体(英语:Acid gas),是天然气或任何其他气体的混合物,其中含有大量的硫化氢(H2S)、二氧化碳(CO2),或类似的污染物。在炼油厂或天然气处理厂,去除硫醇和/或硫化氢的过程通常被称为
  • 尼日尔-刚果语系尼日尔-刚果语系分布在非洲的中部和非洲南部部分地区。大部分尼日尔-刚果语系语言都是声调语言,词句顺序通常为主谓宾结构(SVO)。而南非的祖鲁语和科萨语,受到邻近的科依桑语系
  • 超级火山超级火山是指能够引发极大规模爆发的火山。虽然对于爆发规模没有严谨的界定,但极大规模爆发都以瞬间改变地形,改变全球气候及影响全球生物的致命灾难。名字源于英国广播公司的
  • 隐含狄利克雷分布隐含狄利克雷分布(英语:Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需
  • 骷髅骷髅或者髑髅、骸骨是已死的动物或人腐化或被吃剩的骨头,经常是死的象征,常被化身为死神或鬼的形像,也被当作材料,制成骨器。骨头常是坚硬的象征,也是人有气节的具体拟物化即“骨
  • 奥利弗·史密斯奥利弗·史密斯(英语:Oliver Smithies,1925年6月23日-2017年1月10日),英国出生的美国遗传学家,北卡罗来纳大学教堂山分校教授。因发明基因剔除技术与美国科学家马里奥·卡佩奇和英
  • 贝蒂·格拉布尔贝蒂·格拉布尔(英语:Betty Grable,1916年12月18日-1973年7月2日),本名为伊丽沙白·路得·格拉布尔(Elizabeth Ruth Grable),生于密苏里州圣路易斯,美国电影演员、歌手与舞者,二战期间
  • 艾纳·恩格伦德斯文·艾纳·恩格伦德(瑞典语:Sven Einar Englund,1916年6月17日-1999年6月27日),芬兰作曲家。出生于一个说瑞典语的家庭,曾就读于西贝柳斯音乐学院,后又随帕姆格伦等人学作曲。他是
  • Finam 控股集团Finam控股集团(英语:Finam_Holdings),是一家企业总部位于俄罗斯莫斯科的金融服务企业。该集团是Finam投资公司的母公司,俄罗斯最大的经纪商,2012年的交易金额达到7万亿卢布。Finam
  • 早安朝日《早安朝日》(日语:おはよう朝日です)是朝日放送播放的平日晨间新闻,采Hi-Vision制作。石田优美(副队长) | 泉绫乃 | 川上千寻(队长) | 河野奈奈帆 | 坂本夏海 | 贞野遥香 | 清水里