DBpedia

✍ dations ◷ 2025-11-04 14:20:41 #DBpedia

DBpedia (乃是数据库,database的意思,也可做数据库百科全书解) 是一项从维基百科里萃取结构化内容(英语:structured content)的项目项目。这些项目所得的结构化信息,也将放在互联网中公开让人取阅。DBpedia允许用户查询跟维基百科相关资源之间的关系与性质,甚至也可查询从维基百科外连到其他资料组(英语:dataset)的内容。DBpedia曾被万维网创始人蒂姆·伯纳斯-李评论为世界上最有名的几个去中心化链接资料的专题之一。

此项目案一开始是由来自柏林自由大学以及莱比锡大学的人士所开启,并与开放链接软件(英语:OpenLink Software)(Open Linked Software)同盟合作。第一份公开可获取的资料集在2007年时发布。它是透过自由授权(英语:free license)的方式所发布,允许他人自由利用这些资料集。

维基百科的条目大部分都是没有固定格式的文字,不过也有部分的资料是属于结构化的信息并且被镶嵌在条目中,像是的表格内容(也就是默认在桌机版维基百科浏览格式,出现在条目右上角出现的字段,或是移动版维基百科的条目一开始就显示的字段。)、分类、图像、地理座标、以及外部网页链接。这些结构化的信息会在此项目案被提取出来并且将其统一的放在一个资料集里头以方便查询。

2013年9月,DBpedia发布了第3.9版的更新。如同之前版本的加强,这次也新增了维基百科更多信息框的比对,同时也新增了维基数据的链接。(透过 owl:sameAs 的链接)。此版的资料组描述了四百万笔实体(entities),其中有322万笔实体是在一个连贯的知识本体中进行分类,这些实体包含了832,000位人物、639,000个地景、116,000份音乐专辑、78,000部视频、18,500个视频游戏、209,000个组织、226,000个物种以及5,600种疾病。。DBpedia资料集提供了最多有119个不同语言的特色标签以及资料摘要;现总共有2460万个图片链接以及2760万笔连到外部网页的链接资料、4500万笔链接到其他RDF格式的资料集、6700万笔链接到维基百科的分类页,以及4120万笔YAGO2(英语:YAGO (Ontology))分类的资料。DBpedia项目使用资源描述框架(Resource Description Framework,简称RDF)来呈现截取的资料,目前包含了24.6亿笔的RDF triple(英语:RDF triple)资料、4700万从英文版本维基百科上截取的资料、19.8亿则来自其他的语言版本,同时有大约4,500万的资料连往外部的资料集。

从本资料集,多个页面之间传播的信息可以被截取,例如某书籍的作者资料,能够被放在关于此书或关于作者的页面中。

从维基百科截取资料其中的一个重大挑战是,相同概念可能会在信息框以及其他的模版中被用不同的参数表示,例如|birthplace=以及|placeofbirth=意义相同。在这样的情况下,查询人物出生地点就必须要在这两个参数下都有查询才能够得到完整的结果。于是,DBpedia的映对语言就被开发了出来,以帮助映对知识本体里头这些定义的异同,进而减少同义词的重叠。有鉴于维基百科中使用信息框以及其他数值非常的多元,开发以及改善映对语言的机制是以开源的方式征求大众参与。

DBpedia摘取维基百科页面上的事实信息,让用户可以不用在多个维基百科条目之间浏览便找到问题的答案。查询资料的方式是利用SPARQL(像SQL的查询语言)来对资源描述框架(RDF)进行查询。举例,假如你对日本少女漫画系列东京喵喵感兴趣,想要找这部漫画的绘者创作的其他作品。DBpedia结合了维基百科上东京喵喵、征海未亚这些条目,以及相关作品诸如丽佳公主以及恋きゅー(英语:Koi Cupid)的信息。因为DBpedia把这些资料都标准化到单一的数据库里,下列查询就能够在不需具体清楚哪一个条目有包含了哪一部分的片段信息,就能够完整的列出相关作品类型:

PREFIX dbprop: <http://dbpedia.org/property/>PREFIX db: <http://dbpedia.org/resource/>SELECT ?who, ?WORK, ?genre WHERE {  db:Tokyo_Mew_Mew dbprop:author ?who . ?WORK  dbprop:author ?who . OPTIONAL { ?WORK dbprop:genre ?genre } .}

使用DBpedia的相关项目或组织

DBpedia广纳了人类知识不同领域,十分多元的范畴资料。这使得它自然而然成为链接众多资料集的枢纽,让外部资料集能够链接到相关的概念。DBpedia的资料集是跟其他许多网络上不同的开放资料资料集在RDF的层级交互相连着。透过这些资料集,可以让应用程序丰富DBpedia的资料。截至2013年9月 (2013-09),已经有超过4500万笔在DBpedia与外部资料集之间的交互链接产生,外部资料集包含:Freebase (database)、OpenCyc、UMBEL(英语:UMBEL)、GeoNames、Musicbrainz、CIA World Fact Book、DBLP、Project Gutenberg、DBtune Jamendo、Eurostat、Uniprot、Bio2RDF(英语:Bio2RDF)、以及美国普查(英语:US Census)等资料。汤森路透公司的前导项目OpenCalais(英语:Calais (Reuters Product))、纽约时报的链接开放资料项目、Zemanta(英语:Zemanta API)以及DBpedia Spotlight也纳入了DBpedia的链接。BBC也使用DBpedia来辅助其内容组织。Faviki(英语:Faviki)使用DBpedia进行语义标签(semantic tagging)。

亚马逊公司提供一串DBpedia,这可集成进亚马逊网络服务应用之中。

2010年6月,来自Web Based Systems Group以及柏林自由大学的研究人员开始了一个叫做“DBpedia Spotlight”的项目,开发工具来将文字资料中使用DBpedia资源的部分加上注解。这个工具解决了过去透过DBpedia链接非结构化信息来源到开放链接资料云的问题。DBpedia Spotlight可展示已命名实体截取(named entity extraction)、包含实体侦测(entity detection)以及命名冲突化解(name resolution)(也就是消歧义(disambiguation))。此工具也能在其他信息截取(information extraction)任务中,用来进行命名实体识别(named entity recognition)。DBpedia Spotlight聚焦在多种不同用途的客制应用。不去聚焦于少部分的实体类型,此项目试图支持全部DBpedia上来自超过320个不同分类里,共约三百五十万个实体与概念。

DBpedia Spotlight可公开获取,是以一个为了测试用途而提供的网络服务,或者也可以从Apache授权的Java/Scala API。DBpedia Spotlight分配也包含了一jQuery插件,此插件允许开发人员在网络上的任何一页加上注解,只要在他们的页面上增加一行文字即可客户端也有Java或PHP的支持应用。此工具可从其展示页(demo page)里,处理多种的英语资料以及网络服务。国际化的支持部分,只要此语言有开维基百科即可支持。

相关

  • 维生素G核黄素,又称维生素B2,维他命B2,维生素G。分子式C17H20N4O6。它是人体必需的13种维生素之一,作为维生素B族的成员之一,微溶于水,可溶于氯化钠溶液,易溶于稀的氢氧化钠溶液。1879年英
  • CA公司CA公司(英语:CA Technologies, 前身为Computer Associates Inc., NASDAQ:CA),中文全名“组合国际电脑股份有限公司”,是美国一家软件公司,于1976年由华裔美国人王嘉廉创立。至于董事
  • 望外鸟类望外鸟类(学名:Inopinaves),是新鸟类的一支,包含麝雉目和陆鸟类,其亲缘关系由2015年的一项系统发育研究证明。传统上并不认为麝雉目与陆鸟类是近亲,而是将麝雉目置于更原始的位置。
  • 胜利阵线胜利阵线(西班牙语:Frente para la Victoria,缩写为FPV)是阿根廷的一个政党联盟。形式上,胜利阵线是正义党的一个内部派别。2003年至2015年,胜利阵线在阿根廷执政。胜利阵线奉行左
  • 腾讯平板管家腾讯平板管家是腾讯公司推出的用于Windows 8和Windows RT操作系统的安全软件,可从Windows应用商店下载。该软件具有系统清理、文件保险箱、系统信息三种功能。此功能可清理系
  • .ba.ba为波斯尼亚黑塞哥维那国家及地区顶级域(ccTLD)的域名。A .ac .ad .ae .af .ag .ai .al .am .ao .aq .ar .as .at .au .aw .ax .az  B .ba .bb .bd .be .bf .bg .bh .bi
  • 艾万·摩根艾万 费德雷克 摩根,第二代崔迪迦子爵(Evan Frederic Morgan, 2nd Viscount Tredegar) FRSL FRSA FAGS FIL FZS(英语:Zoological Society of London) (1893年7月13日 – 1949年4
  • 鲛珠传《鲛珠传》(英语:),是一部于2017年上映的奇幻喜剧电影。影片基于九州架空世界观,是借用了九州系列《九州·天空城》设定的原创故事。影片由王大陆、张天爱、任达华、盛冠森、王迅
  • 严似祖严似祖(?-1654年),字亦如,云南府昆明县人,明朝、南明政治人物。严似祖是尚书严清的孙子,在崇祯十二年(1639年)中举人,次年(1640年)联捷进士,获授检讨,负责纂修《会典》,掌管起居注,管理六科奏
  • 尼尔岛 (阿拉斯加州)尼尔岛是美国的岛屿,属于科迪亚克群岛的一部分,由阿拉斯加州科的阿克岛自治市镇负责管辖,面积1.11平方公里,最高点海拔高度40米,2000年人口仅6人。坐标:57°46′55″N 152°24′00