BabelNet

✍ dations ◷ 2025-05-16 20:36:00 #人工智能,计算语言学,知识表示,多语,在线词典,本体 (计算机科学)

BabelNet是一个多语词汇语义网络和本体,由罗马萨皮恩扎大学(罗马大学)计算机科学系的计算语言学实验室所创建。 BabelNet是自动构建的,其将最大的多语Web百科全书维基百科链接到最常用的英语计算词典WordNet。这种链接整合,以自动映射的方式完成;对于资源匮乏的语言所存在的词汇空缺,借助于统计机器翻译来补充。其结果是一个“百科词典”,提供了多种语言的概念和命名实体,并包含了它们之间的丰富的语义关系。通过与免费授权使用的OmegaWiki(英语:OmegaWiki)、英语维基词典、维基数据、FrameNet(英语:FrameNet)、VerbNet(英语:VerbNet)等语义资源建立链接,BabelNet还补充了其它一些词汇和定义。和WordNet类似,BabelNet将不同语言中的词语以同义词集的形式进行组织,称之为Babel synset。对于每一个Babel synset(英语:Synonym_ring),BabelNet提供简短的定义(称为注释),这些定义具有多种语言版本,主要来自于WordNet和维基百科。

截至2016年8月,BabelNet(v3.7)已覆盖了271种语言,包栝全部的欧洲语言、大多数亚洲语言及拉丁语。BabelNet 3.7包含了大约1400万个同义词集和7.46亿个词义(不论其语言)。在每种语言中,每个Babel synset(词义)平均包含2个同义词。BabelNet的语义网络包含了丰富的词汇语义关系。这些语义关系有两个来源:一是,来自于WordNet的语义关系,如上下位关系(英语:Hyponymy_and_hypernymy)、部分整体关系、反义、同义关系等,总共大约36.4万条关系;二是,来自于维基百科的非特定的相关关系,总共大约3.8亿条关系。 BabelNet 3.7将大约1100万张图片与Babel synset建立了关联,并为这些资源提供了Lemon RDF编码,可通过SPARQL endpoint获取。BabelNet 3.7为267万个同义词集指定了领域标签。

BabelNet可广泛应用在多语自然语言处理中。BabelNet中的词汇化知识可在以下任务中取得最佳效果:

BabelNet是一个多语词汇语义网络和本体,因其在克服语言障碍和利用异构数据源方面做了巨大的开创性工作,BabelNet于2015年被授予META奖。

BabelNet是最新的词汇知识资源库,具有巨大创新性,《时代周刊》曾专题报道BabelNet的研究工作,认为BabelNet将在21世纪发挥引领作用。

相关

  • 自闭症光谱自闭症谱系(英语:Autism spectrum)是一种心理状况的谱系障碍,亦称自闭症谱系障碍(英语:autism spectrum disorders,简写ASD;或autism spectrum conditions,简写ASC)或泛自闭症障碍,描述
  • 牙结石清除术牙结石清除术,又称结石刮除术,俗称洗牙,是借由各种器械(如超声波洁牙机,手动刮牙器等)来去除这些附着于牙颈与牙龈沟之间的牙结石及牙菌斑。通过洗牙可以减轻牙龈炎、牙周炎的发炎
  • 辐鳍鱼总纲目分类请见本文。辐鳍鱼又名条鳍鱼,为辐鳍鱼总纲(学名:Actinopterygii)鱼类的通称,是一类鳍呈放射状的硬骨鱼。辐鳍鱼是脊椎动物中种类最多的,种数几乎占现存3万多种鱼类的99%,遍及
  • 安德烈·马尔罗乔治·安德烈·马尔罗(Georges André Malraux,1901年11月3日-1976年11月23日),法国著名作家、公共知识分子。1959年—1969年戴高乐任总统时,出任法国第一任文化部长。1923年马尔
  • 锯齿龙类锯齿龙科(学名:Pareiasauridae)又译颊龙,是一类副爬行动物,繁盛于二叠纪中期至晚期,是晚古生代非常特别的植食性副爬行动物。这些动物的体型矮胖,中型到大型(身长60cm到3m长),有非常大
  • 法国议会法国议会(法语:Parlement français),也是法国国会,是法国政府里面审议和制定法律的立法机关,目前实行两院制并由以下两部分组成:每个议院在不同的地点召开会议:每个议院都有各自的
  • 缩合聚合物缩合聚合物泛指所有经缩合反应生成的聚合物。在聚合过程中有小分子如水、甲醛及氯等物质离开聚合物链。与其相对的则为由不饱和烃透过没有单体损失的加成反应生成的加成聚合
  • 信息社会在一个信息型社会或信息性社会中,信息的创造、分发、散播、使用、集成和操纵是一种重要的经济、政治和文化活动。信息社会的目标是通过具创意而有成效地使用信息技术,以获取国
  • 约翰·鲍尔约翰·阿尔伯特·鲍尔(1882年7月4日-1918年11月20日)是瑞典插画家。他的主要作品是关于人文风景和神话的,但他也创作肖像画。他最著名的插画作品是他早期创作的《侏儒和巨魔》(),创
  • I²SI²S或I2S(英语:或)是IC间传输数字音频数据的一种接口标准,采用序列的方式传输2组(左右声道)数据。I2S常被使用在发送CD的PCM音频数据到CD播放器的DAC中。由于I2S将数据信号和时脉