DBpedia (乃是数据库,database的意思,也可做数据库百科全书解) 是一项从维基百科里萃取结构化内容(英语:structured content)的项目项目。这些项目所得的结构化信息,也将放在互联网中公开让人取阅。DBpedia允许用户查询跟维基百科相关资源之间的关系与性质,甚至也可查询从维基百科外连到其他资料组(英语:dataset)的内容。DBpedia曾被万维网创始人蒂姆·伯纳斯-李评论为世界上最有名的几个去中心化链接资料的专题之一。
此项目案一开始是由来自柏林自由大学以及莱比锡大学的人士所开启,并与开放链接软件(英语:OpenLink Software)(Open Linked Software)同盟合作。第一份公开可获取的资料集在2007年时发布。它是透过自由授权(英语:free license)的方式所发布,允许他人自由利用这些资料集。
维基百科的条目大部分都是没有固定格式的文字,不过也有部分的资料是属于结构化的信息并且被镶嵌在条目中,像是的表格内容(也就是默认在桌机版维基百科浏览格式,出现在条目右上角出现的字段,或是移动版维基百科的条目一开始就显示的字段。)、分类、图像、地理座标、以及外部网页链接。这些结构化的信息会在此项目案被提取出来并且将其统一的放在一个资料集里头以方便查询。
2013年9月,DBpedia发布了第3.9版的更新。如同之前版本的加强,这次也新增了维基百科更多信息框的比对,同时也新增了维基数据的链接。(透过 owl:sameAs
的链接)。此版的资料组描述了四百万笔实体(entities),其中有322万笔实体是在一个连贯的知识本体中进行分类,这些实体包含了832,000位人物、639,000个地景、116,000份音乐专辑、78,000部视频、18,500个视频游戏、209,000个组织、226,000个物种以及5,600种疾病。。DBpedia资料集提供了最多有119个不同语言的特色标签以及资料摘要;现总共有2460万个图片链接以及2760万笔连到外部网页的链接资料、4500万笔链接到其他RDF格式的资料集、6700万笔链接到维基百科的分类页,以及4120万笔YAGO2(英语:YAGO (Ontology))分类的资料。DBpedia项目使用资源描述框架(Resource Description Framework,简称RDF)来呈现截取的资料,目前包含了24.6亿笔的RDF triple(英语:RDF triple)资料、4700万从英文版本维基百科上截取的资料、19.8亿则来自其他的语言版本,同时有大约4,500万的资料连往外部的资料集。
从本资料集,多个页面之间传播的信息可以被截取,例如某书籍的作者资料,能够被放在关于此书或关于作者的页面中。
从维基百科截取资料其中的一个重大挑战是,相同概念可能会在信息框以及其他的模版中被用不同的参数表示,例如|birthplace=
以及|placeofbirth=
意义相同。在这样的情况下,查询人物出生地点就必须要在这两个参数下都有查询才能够得到完整的结果。于是,DBpedia的映对语言就被开发了出来,以帮助映对知识本体里头这些定义的异同,进而减少同义词的重叠。有鉴于维基百科中使用信息框以及其他数值非常的多元,开发以及改善映对语言的机制是以开源的方式征求大众参与。
DBpedia摘取维基百科页面上的事实信息,让用户可以不用在多个维基百科条目之间浏览便找到问题的答案。查询资料的方式是利用SPARQL(像SQL的查询语言)来对资源描述框架(RDF)进行查询。举例,假如你对日本少女漫画系列东京喵喵感兴趣,想要找这部漫画的绘者创作的其他作品。DBpedia结合了维基百科上东京喵喵、征海未亚这些条目,以及相关作品诸如丽佳公主以及恋きゅー(英语:Koi Cupid)的信息。因为DBpedia把这些资料都标准化到单一的数据库里,下列查询就能够在不需具体清楚哪一个条目有包含了哪一部分的片段信息,就能够完整的列出相关作品类型:
PREFIX dbprop: <http://dbpedia.org/property/>PREFIX db: <http://dbpedia.org/resource/>SELECT ?who, ?WORK, ?genre WHERE { db:Tokyo_Mew_Mew dbprop:author ?who . ?WORK dbprop:author ?who . OPTIONAL { ?WORK dbprop:genre ?genre } .}