知识图谱

✍ dations ◷ 2025-08-07 23:24:07 #知识图谱

知识图谱(Knowledge Graph),是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。知识图谱可以实现Web从网页链接向概念链接转变,支持用户按主题而不是字符串检索,真正实现语义检索。基于知识图谱的搜索引擎,能够以图形方式向用户反馈结构化的知识,用户不必浏览大量网页即能准确定位和深度获取知识。

在知识表示中,知识图谱是一种知识库,其中的数据通过图结构的数据模型或拓扑整合而成。知识图谱通常被用来存储彼此之间具有相互联系的实体。1980年代后期,格罗宁根大学和特文特大学联合启动了一个名为知识图谱的项目。Google、Bing和Yahoo等搜索引擎均已引入知识图谱并在搜索界面的右侧显示。

知识图谱的概念最早由谷歌2012年5月17日提出,其将知识图谱定义为用于增强搜索引擎功能的辅助知识库。但在知识图谱概念问世之前,语义网络技术的研究领域早已开始。2006年,Berners-Lee提出数据链接(linked data)的思想,推广和完善URI (uniform resource identifier) , RDF (resource description framework) , OWL (Web ontology language) 等技术标准,为知识图谱提供了技术基础条件。

三元组是知识图谱的一种通用表示方式,即 G =(E, R, S),其中 E 是知识库中的实体,R 是知识库中的关系,S 代表知识库中的三元组。三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等;属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等;属性值主要指对象指定属性的值,例如中国、1988-09-08等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair, AVP) 可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。

知识图谱在逻辑架构上分为两个层次:数据层和模式层。数据层是以事实(fact)为存储单位的图数据库,其事实的基础表达方式就是“实体-关系-实体”或者“实体-属性-属性值”。模式层存储的是经过提炼的知识,借助本体库来规范实体、关系以及实体类型和属性等之间的关系。

知识图谱的体系架构分为3个部分,分别获取源数据、知识融合和知识计算与知识应用。 知识图谱有两种构建方式,自顶向下和自底向下。在知识图谱发展初期,知识图谱主要借助百科类网站等结构化数据源,提取本体和模式信息,加入到知识库的自顶向下方式构建数据库。现阶段知识图谱大多为公开采集数据并自动抽取资源,经过人工审核后加入到知识库中,这种则是自底向上的构建方式。

知识抽取(information extraction)是构建知识图谱的第一步,为了从异构数据源中获取候选知识单元,知识抽取技术将自动从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息。

实体抽取

实体抽取,也称为命名实体识别(named entity recognition,�NER),指从源数据中自动识别命名实体,这一步是信息抽取中最基础和关键的部分,因为实体抽取的准确率和召回率对后续知识获取效率和质量影响很大。

早期实体抽取的准召率不够理想,但在2004年,Lin等采用字典辅助下的最大熵算法,基于Medline论文摘要的GENIA数据集使得实体抽取的准召率均超过70%。2008年,Whitelaw等提出根据已知实体实例进行特征建模,利用模型从海量数据集中得到新的命名实体列表,然后再针对新实体建模,迭代地生成实体标注语料库。2010年,Jain等提出一种面向开放域的无监督学习算法,事先不给实体分类,而是基于实体的语义特征从搜索日志中识别命名实体,然后采用聚类算法对识别出的实体对象进行聚类。

关系抽取

经过实体抽取, 知识库目前得到的仅是一系列离散的命名实体,。为了得到更准确的语义信息, 还需要从文本语料中提取出实体之间的关联关系, 以此形成网状的知识结构,这种技术则为关系抽取技术。

属性抽取

属性抽取是从不同信息源中采集特定实体的属性信息。例如针对某个公众人物, 可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从各个数据源中汇集属性信息,更完整地表述实体属性。

通过知识抽取的结果可能存在大量冗余和错误信息,形成的结构化信息也会缺乏层次性和逻辑性,因此需要对抽取来的信息做知识融合,消除歧义概念、剔除冗余和错误概念,提升知识质量。

知识融合分为实体链接和知识合并两部分。实体链接(entity linking)指将在文本中抽取出来的实体链接到知识库中正确实体。知识合并指从第三方知识库产品或已有数据化数据中获取知识输入,包括合并外部知识库和合并关系数据库。

通过知识抽取、知识融合得到一系列的基本事实表达,离结构化、网络化的知识体系仍有一段距离。因此还需要针对这些事实表达进行知识加工,包括本体构建、知识推理和质量评估。

本体构建(ontology)指对概念建模的规范,以形式化方式明确定义概念之间的联系。在知识图谱中,本体位于模式层,用于描述概念层次体系的知识概念模版。

知识推理指从知识库中已有的实体关系数据经过计算建立新实体关联,从现有知识中发现新知识,拓展和丰富知识网络。例如已知 (乾隆, 父亲, 雍正) 和 (雍正, 父亲, 康熙) , 可以得到 (乾隆, 祖父, 康熙) 或 (康熙, 孙子, 乾隆) 。知识推理的对象除了实体关系,还包括实体的属性值、本体概念层次关系等。例如已知 (老虎, 科, 猫科) 和 (猫科, 目, 食肉目) , 可以推出 (老虎, 目, 食肉目) 。

因为知识推理的信息基础来源于开放域的信息抽取,可能存在实体识别错误、关系抽取错误等问题,因此知识推理的质量也可能存在对应问题,需要在入知识库之前,将推理得来的知识进行质量评估。2011年,Fader采用人工标注方式对1000个句子中的实体关系三元组进行标注,并作为训练集得到逻辑斯蒂回归模型,用于对REVERB系统的信息抽取结果计算置信度。另外,谷歌的Knowledge Vault从全网范围内抽取结构化的数据信息, 并根据某一数据信息在整个抽取过程中抽取频率对该数据信息的可信度进行评分, 然后利用从可信知识库Freebase中的先验知识对已评分的可信度信息进行修正, 这一方法有效降低对数据信息正误判断的不确定性, 提高知识图谱中知识的质量。

Google Now

Web Open Data

Microsoft Cortana

Web Open Data

The World Book

Encyclopedia

YAGO KB

NELL KB

YAGO KB

NELL KB

Wikipedia

Web Open Data

Wikipedia

受到算法准召率低、限制条件多、扩展性不好等问题,针对开放域的信息抽取仍面对很大挑战。

实体消歧、合并外部数据库和关系数据库的应用效果仍有很大提升空间。

本体构建中的聚类问题、质量评估的标准和指标的建立和知识推理的技术思维限制,都是知识加工的重要难点。

相关

  • 古希腊哲学家列表下表列出知名的古希腊哲学家。
  • 华南海鲜市场武汉华南海鲜批发市场,又名华南海鲜市场,是中华人民共和国湖北省武汉市的一个海鲜专业批发市场。位于江汉区汉口金家墩地区,发展大道(二环线)、新华路交界,汉口火车站附近,临近同为
  • 图论图论(英语:Graph theory),是组合数学的一个分支,和其他数学分支,如群论、矩阵论、拓扑学有着密切关系。图是图论的主要研究对象。图是由若干给定的顶点及连接两顶点的边所构成的图
  • 马约尔岛马约尔岛是新西兰的火山岛,位于北岛的丰盛湾对开海域,距离陶朗加35公里,面积13平方公里,最高点海拔高度355米,最近一次火山喷发在公元前4390年左右发生,岛上无人居住。
  • BiopreparatBiopreparat(俄语:Биопрепарат,IPA:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code200
  • 东萨塞克斯郡东萨塞克斯(郡)(英语:East Sussex),英国英格兰东南部的郡,南临英吉利海峡。刘易斯是郡治。以人口计算,布赖顿-霍夫是第1大自治市镇(Borough),威尔登区是第2大自治市镇;布赖顿是第1大镇(To
  • 市川准市川准(1948年11月25日-2008年9月19日),日本电影导演与电视广告导演。他本名市川纯,出身于日本东京都府中市。一开始是电视广告导演,后来在1987年开始拍摄《丑女》(BU・SU)之后就成
  • 2017年台湾电影列表2017年台湾电影列表是2017年在台湾上映的电影等相关列表。2017年台湾整体电影共上映759部,票房为105.69亿元,观影人次为4,542万人次;台湾电影上映63部,票房为7.28亿元,观影人次为
  • 女超人 (电影)《女超人》(英语:Supergirl)是一部于1984年上映的超级英雄科学奇幻英国电影。以DC漫画中的女超人角色改编而来。超危险特工(2010年) · 超危险特工2:狠战(2013年)沼泽异形(英语:Swam
  • 1984年欧洲足球锦标赛决赛1984年6月27日,巴黎王子球场。半决赛中艰难淘汰了丹麦队的西班牙人,也用完了自己的运气,被如日中天的法国队击败。在两年前世界杯上闯入四强后,法国人终于在家门口取得了重要的胜利。柏天尼、居理斯、泰简拿以及费尔南德斯,这些伟大的名字也都永远载入了史册。决赛开始之前,法国人休整了三天,西班牙人离上场比赛仅间隔两天。而且,西班牙的清道夫马切达(英语:Antonio Maceda)和体力充沛的高迪略(英语:Rafael Gordillo)均由于停赛而无法上场,这显然对他们不利。不过,此时的法国同样很疲惫,精神上