DBpedia

✍ dations ◷ 2025-06-22 04:04:07 #DBpedia

DBpedia (乃是数据库,database的意思,也可做数据库百科全书解) 是一项从维基百科里萃取结构化内容(英语:structured content)的项目项目。这些项目所得的结构化信息,也将放在互联网中公开让人取阅。DBpedia允许用户查询跟维基百科相关资源之间的关系与性质,甚至也可查询从维基百科外连到其他资料组(英语:dataset)的内容。DBpedia曾被万维网创始人蒂姆·伯纳斯-李评论为世界上最有名的几个去中心化链接资料的专题之一。

此项目案一开始是由来自柏林自由大学以及莱比锡大学的人士所开启,并与开放链接软件(英语:OpenLink Software)(Open Linked Software)同盟合作。第一份公开可获取的资料集在2007年时发布。它是透过自由授权(英语:free license)的方式所发布,允许他人自由利用这些资料集。

维基百科的条目大部分都是没有固定格式的文字,不过也有部分的资料是属于结构化的信息并且被镶嵌在条目中,像是的表格内容(也就是默认在桌机版维基百科浏览格式,出现在条目右上角出现的字段,或是移动版维基百科的条目一开始就显示的字段。)、分类、图像、地理座标、以及外部网页链接。这些结构化的信息会在此项目案被提取出来并且将其统一的放在一个资料集里头以方便查询。

2013年9月,DBpedia发布了第3.9版的更新。如同之前版本的加强,这次也新增了维基百科更多信息框的比对,同时也新增了维基数据的链接。(透过 owl:sameAs 的链接)。此版的资料组描述了四百万笔实体(entities),其中有322万笔实体是在一个连贯的知识本体中进行分类,这些实体包含了832,000位人物、639,000个地景、116,000份音乐专辑、78,000部视频、18,500个视频游戏、209,000个组织、226,000个物种以及5,600种疾病。。DBpedia资料集提供了最多有119个不同语言的特色标签以及资料摘要;现总共有2460万个图片链接以及2760万笔连到外部网页的链接资料、4500万笔链接到其他RDF格式的资料集、6700万笔链接到维基百科的分类页,以及4120万笔YAGO2(英语:YAGO (Ontology))分类的资料。DBpedia项目使用资源描述框架(Resource Description Framework,简称RDF)来呈现截取的资料,目前包含了24.6亿笔的RDF triple(英语:RDF triple)资料、4700万从英文版本维基百科上截取的资料、19.8亿则来自其他的语言版本,同时有大约4,500万的资料连往外部的资料集。

从本资料集,多个页面之间传播的信息可以被截取,例如某书籍的作者资料,能够被放在关于此书或关于作者的页面中。

从维基百科截取资料其中的一个重大挑战是,相同概念可能会在信息框以及其他的模版中被用不同的参数表示,例如|birthplace=以及|placeofbirth=意义相同。在这样的情况下,查询人物出生地点就必须要在这两个参数下都有查询才能够得到完整的结果。于是,DBpedia的映对语言就被开发了出来,以帮助映对知识本体里头这些定义的异同,进而减少同义词的重叠。有鉴于维基百科中使用信息框以及其他数值非常的多元,开发以及改善映对语言的机制是以开源的方式征求大众参与。

DBpedia摘取维基百科页面上的事实信息,让用户可以不用在多个维基百科条目之间浏览便找到问题的答案。查询资料的方式是利用SPARQL(像SQL的查询语言)来对资源描述框架(RDF)进行查询。举例,假如你对日本少女漫画系列东京喵喵感兴趣,想要找这部漫画的绘者创作的其他作品。DBpedia结合了维基百科上东京喵喵、征海未亚这些条目,以及相关作品诸如丽佳公主以及恋きゅー(英语:Koi Cupid)的信息。因为DBpedia把这些资料都标准化到单一的数据库里,下列查询就能够在不需具体清楚哪一个条目有包含了哪一部分的片段信息,就能够完整的列出相关作品类型:

PREFIX dbprop: <http://dbpedia.org/property/>PREFIX db: <http://dbpedia.org/resource/>SELECT ?who, ?WORK, ?genre WHERE {  db:Tokyo_Mew_Mew dbprop:author ?who . ?WORK  dbprop:author ?who . OPTIONAL { ?WORK dbprop:genre ?genre } .}

使用DBpedia的相关项目或组织

DBpedia广纳了人类知识不同领域,十分多元的范畴资料。这使得它自然而然成为链接众多资料集的枢纽,让外部资料集能够链接到相关的概念。DBpedia的资料集是跟其他许多网络上不同的开放资料资料集在RDF的层级交互相连着。透过这些资料集,可以让应用程序丰富DBpedia的资料。截至2013年9月 (2013-09),已经有超过4500万笔在DBpedia与外部资料集之间的交互链接产生,外部资料集包含:Freebase (database)、OpenCyc、UMBEL(英语:UMBEL)、GeoNames、Musicbrainz、CIA World Fact Book、DBLP、Project Gutenberg、DBtune Jamendo、Eurostat、Uniprot、Bio2RDF(英语:Bio2RDF)、以及美国普查(英语:US Census)等资料。汤森路透公司的前导项目OpenCalais(英语:Calais (Reuters Product))、纽约时报的链接开放资料项目、Zemanta(英语:Zemanta API)以及DBpedia Spotlight也纳入了DBpedia的链接。BBC也使用DBpedia来辅助其内容组织。Faviki(英语:Faviki)使用DBpedia进行语义标签(semantic tagging)。

亚马逊公司提供一串DBpedia,这可集成进亚马逊网络服务应用之中。

2010年6月,来自Web Based Systems Group以及柏林自由大学的研究人员开始了一个叫做“DBpedia Spotlight”的项目,开发工具来将文字资料中使用DBpedia资源的部分加上注解。这个工具解决了过去透过DBpedia链接非结构化信息来源到开放链接资料云的问题。DBpedia Spotlight可展示已命名实体截取(named entity extraction)、包含实体侦测(entity detection)以及命名冲突化解(name resolution)(也就是消歧义(disambiguation))。此工具也能在其他信息截取(information extraction)任务中,用来进行命名实体识别(named entity recognition)。DBpedia Spotlight聚焦在多种不同用途的客制应用。不去聚焦于少部分的实体类型,此项目试图支持全部DBpedia上来自超过320个不同分类里,共约三百五十万个实体与概念。

DBpedia Spotlight可公开获取,是以一个为了测试用途而提供的网络服务,或者也可以从Apache授权的Java/Scala API。DBpedia Spotlight分配也包含了一jQuery插件,此插件允许开发人员在网络上的任何一页加上注解,只要在他们的页面上增加一行文字即可客户端也有Java或PHP的支持应用。此工具可从其展示页(demo page)里,处理多种的英语资料以及网络服务。国际化的支持部分,只要此语言有开维基百科即可支持。

相关

  • 西布兰诺人西布兰诺人(学名:Homo cepranensis)是一个于1994年发现的人属头颅骨。这个化石是在意大利罗马东南89公里弗罗西诺内省的西布兰诺发现。这个化石比西班牙前人的化石还要古老,估计
  • 尿片尿片,又称为尿布、尿裤、尿不湿、屎片,是因为无法或尚未训练自行控制大小便而穿着。除此之外,也有让成人使用的成人纸尿片。尿片的出现,大大地改变了婴幼儿及抚养者的生活,方便性
  • 孙钧孙钧(1926年10月3日-),中国隧道与地下建筑工程专家。原籍浙江绍兴,生于江苏苏州。1949年毕业于交通大学土木工程系。1991年当选为中国科学院院士(学部委员)。
  • 乳房整型乳房整型(Mammaplasty,也称为mammoplasty或mastoplasty)是指以调整乳房形状为目的的整型手术,主要可以分为以下几种:
  • 安吉拉·雷纳安吉拉·雷纳(英语:Angela Rayner, Bowen;1980年3月28日-)是一位英国工党政治人物,现任英国工党副领袖、工党主席 英国下议院阿什顿安德莱恩选区议员。雷纳16岁时因怀孕而终止学业,
  • 洪有丰洪有丰(1892年-1963年1月27日),字范五,安徽绩溪人,中国图书馆学家,曾任国立清华大学图书馆主任,南京大学图书馆馆长,华东师范大学图书馆馆长等职务。
  • 阿肯语阿肯语(Akan,又译阿寒语、阿坎语)是一种中部塔诺语,为加纳和科特迪瓦阿肯人所使用。在迦南,约58%的人民使用阿肯语。在科特迪瓦,大约有30%的人民使用。合计使用人数约1100万人。
  • 高桥玛莉润高桥玛莉润(日语:高橋 メアリージュン/たかはし メアリージュン ,1987年11月8日-)是日本女性模特儿、演员。滋贺县出身,是日菲混血儿,所属经纪公司为Asia Promotion(日语:エイジアプ
  • 狮子山站 (铜陵)狮子山站是位于安徽省铜陵市铜官区的一个铁路车站,邮政编码244031。车站建于1971年,有宁铜铁路、铜九铁路经过该站,有客运站房总面积192.3平方米,其中旅客候车室有73.3平方米,并
  • 佛蒙特州县级行政区列表美国佛蒙特州总共拥有14个县。这14个县辖下有255个政治单位或地区,其中有237个为城镇、9个为城市、5个为未组成社团区域、以及4个戈尔。佛蒙特州的每个县均拥有自己的县治,称为“县镇”(shire town)。1779年,佛蒙特州仅拥有两个县。当时,位于西部的县为本宁顿县,而位于东部的县则为坎伯兰县。1781年,坎伯兰县分裂成四个县,而其中的华盛顿县则变成属于新罕布什尔州的县。位于州最东北部的三个县:艾塞克斯县、奥尔良县和喀里多尼亚县被统称为“东北王国”。佛蒙特州每个县都有自己的联邦信息处理标准代码(简