知识图谱

✍ dations ◷ 2025-11-23 15:43:36 #知识图谱

知识图谱(Knowledge Graph),是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。知识图谱可以实现Web从网页链接向概念链接转变,支持用户按主题而不是字符串检索,真正实现语义检索。基于知识图谱的搜索引擎,能够以图形方式向用户反馈结构化的知识,用户不必浏览大量网页即能准确定位和深度获取知识。

在知识表示中,知识图谱是一种知识库,其中的数据通过图结构的数据模型或拓扑整合而成。知识图谱通常被用来存储彼此之间具有相互联系的实体。1980年代后期,格罗宁根大学和特文特大学联合启动了一个名为知识图谱的项目。Google、Bing和Yahoo等搜索引擎均已引入知识图谱并在搜索界面的右侧显示。

知识图谱的概念最早由谷歌2012年5月17日提出,其将知识图谱定义为用于增强搜索引擎功能的辅助知识库。但在知识图谱概念问世之前,语义网络技术的研究领域早已开始。2006年,Berners-Lee提出数据链接(linked data)的思想,推广和完善URI (uniform resource identifier) , RDF (resource description framework) , OWL (Web ontology language) 等技术标准,为知识图谱提供了技术基础条件。

三元组是知识图谱的一种通用表示方式,即 G =(E, R, S),其中 E 是知识库中的实体,R 是知识库中的关系,S 代表知识库中的三元组。三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等;属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等;属性值主要指对象指定属性的值,例如中国、1988-09-08等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair, AVP) 可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。

知识图谱在逻辑架构上分为两个层次:数据层和模式层。数据层是以事实(fact)为存储单位的图数据库,其事实的基础表达方式就是“实体-关系-实体”或者“实体-属性-属性值”。模式层存储的是经过提炼的知识,借助本体库来规范实体、关系以及实体类型和属性等之间的关系。

知识图谱的体系架构分为3个部分,分别获取源数据、知识融合和知识计算与知识应用。 知识图谱有两种构建方式,自顶向下和自底向下。在知识图谱发展初期,知识图谱主要借助百科类网站等结构化数据源,提取本体和模式信息,加入到知识库的自顶向下方式构建数据库。现阶段知识图谱大多为公开采集数据并自动抽取资源,经过人工审核后加入到知识库中,这种则是自底向上的构建方式。

知识抽取(information extraction)是构建知识图谱的第一步,为了从异构数据源中获取候选知识单元,知识抽取技术将自动从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息。

实体抽取

实体抽取,也称为命名实体识别(named entity recognition,�NER),指从源数据中自动识别命名实体,这一步是信息抽取中最基础和关键的部分,因为实体抽取的准确率和召回率对后续知识获取效率和质量影响很大。

早期实体抽取的准召率不够理想,但在2004年,Lin等采用字典辅助下的最大熵算法,基于Medline论文摘要的GENIA数据集使得实体抽取的准召率均超过70%。2008年,Whitelaw等提出根据已知实体实例进行特征建模,利用模型从海量数据集中得到新的命名实体列表,然后再针对新实体建模,迭代地生成实体标注语料库。2010年,Jain等提出一种面向开放域的无监督学习算法,事先不给实体分类,而是基于实体的语义特征从搜索日志中识别命名实体,然后采用聚类算法对识别出的实体对象进行聚类。

关系抽取

经过实体抽取, 知识库目前得到的仅是一系列离散的命名实体,。为了得到更准确的语义信息, 还需要从文本语料中提取出实体之间的关联关系, 以此形成网状的知识结构,这种技术则为关系抽取技术。

属性抽取

属性抽取是从不同信息源中采集特定实体的属性信息。例如针对某个公众人物, 可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从各个数据源中汇集属性信息,更完整地表述实体属性。

通过知识抽取的结果可能存在大量冗余和错误信息,形成的结构化信息也会缺乏层次性和逻辑性,因此需要对抽取来的信息做知识融合,消除歧义概念、剔除冗余和错误概念,提升知识质量。

知识融合分为实体链接和知识合并两部分。实体链接(entity linking)指将在文本中抽取出来的实体链接到知识库中正确实体。知识合并指从第三方知识库产品或已有数据化数据中获取知识输入,包括合并外部知识库和合并关系数据库。

通过知识抽取、知识融合得到一系列的基本事实表达,离结构化、网络化的知识体系仍有一段距离。因此还需要针对这些事实表达进行知识加工,包括本体构建、知识推理和质量评估。

本体构建(ontology)指对概念建模的规范,以形式化方式明确定义概念之间的联系。在知识图谱中,本体位于模式层,用于描述概念层次体系的知识概念模版。

知识推理指从知识库中已有的实体关系数据经过计算建立新实体关联,从现有知识中发现新知识,拓展和丰富知识网络。例如已知 (乾隆, 父亲, 雍正) 和 (雍正, 父亲, 康熙) , 可以得到 (乾隆, 祖父, 康熙) 或 (康熙, 孙子, 乾隆) 。知识推理的对象除了实体关系,还包括实体的属性值、本体概念层次关系等。例如已知 (老虎, 科, 猫科) 和 (猫科, 目, 食肉目) , 可以推出 (老虎, 目, 食肉目) 。

因为知识推理的信息基础来源于开放域的信息抽取,可能存在实体识别错误、关系抽取错误等问题,因此知识推理的质量也可能存在对应问题,需要在入知识库之前,将推理得来的知识进行质量评估。2011年,Fader采用人工标注方式对1000个句子中的实体关系三元组进行标注,并作为训练集得到逻辑斯蒂回归模型,用于对REVERB系统的信息抽取结果计算置信度。另外,谷歌的Knowledge Vault从全网范围内抽取结构化的数据信息, 并根据某一数据信息在整个抽取过程中抽取频率对该数据信息的可信度进行评分, 然后利用从可信知识库Freebase中的先验知识对已评分的可信度信息进行修正, 这一方法有效降低对数据信息正误判断的不确定性, 提高知识图谱中知识的质量。

Google Now

Web Open Data

Microsoft Cortana

Web Open Data

The World Book

Encyclopedia

YAGO KB

NELL KB

YAGO KB

NELL KB

Wikipedia

Web Open Data

Wikipedia

受到算法准召率低、限制条件多、扩展性不好等问题,针对开放域的信息抽取仍面对很大挑战。

实体消歧、合并外部数据库和关系数据库的应用效果仍有很大提升空间。

本体构建中的聚类问题、质量评估的标准和指标的建立和知识推理的技术思维限制,都是知识加工的重要难点。

相关

  • 爱努语阿伊努语(阿伊努语假名:.mw-parser-output .jis2004font{font-family:"源ノ角ゴシック JP Normal","源ノ角ゴシック JP","Source Han Sans Normal","Source Han Sans","NotoSa
  • 阿尔扎赫德拉姆德拉姆(亚美尼亚语:դրամ),为未受普遍承认的阿尔扎赫共和国的货币。阿尔扎赫主要居民为亚美尼亚族人,1991年宣布从阿塞拜疆独立。虽然阿尔扎赫德拉姆是阿尔扎赫的法定货币,但该
  • 1913年国家人口列表这是按照1913年人口排列的国家列表,只排名主权国家。
  • 四千岛四千岛(ສີ່ພັນດອນ Si Phan Don)是位于湄公河内的一组列岛,位于老挝南部占巴塞省。四千岛的特点是岛屿众多,但是当湄公河泛滥时,其中一半会被淹没。其中的主要岛屿是东孔
  • 足球战争足球战争(西班牙语:La guerra del fútbol),又称一百小时战争(Guerra de las 100 horas),是1969年萨尔瓦多与洪都拉斯之间的6日战争。事实上,作为导火线的足球与该战争的关系其实微
  • 奥恩达尔奥恩达尔(Ondal),是印度西孟加拉邦Barddhaman县的一个城镇。总人口19504(2001年)。该地2001年总人口19504人,其中男性10389人,女性9115人;0—6岁人口2055人,其中男1094人,女961人;识字
  • 邹敬芳邹敬芳(1885年-?),字兰甫,湖南临澧人。邹敬芳早年先后毕业于湖南高等工业学校、日本早稻田大学。返国后,曾任湘西靖国军总司令部秘书长、广州军政府军政部秘书、国民政府法制委员会
  • 阿耶卢山阿耶卢山是埃塞俄比亚东部的层状火山,位于阿法尔州阿瓦什河的东岸附近,座标10°5′N 40°42′E / 10.083°N 40.700°E / 10.083; 40.700,海拔2,145米。阿法尔人每年前往阿耶
  • 刘建宽刘建宽(1963年10月-),男,汉族,湖南涟源人,中华人民共和国政治人物。曾任湖南省人民检察院党组成员、副检察长。1983年8月参加工作。1986年2月加入中国共产党。1997年11月,任娄底地区冷水江市公安局局长。2000年5月,任娄底市公安局副局长。2006年11月,任永州市人民政府党组成员、市公安局局长兼党委书记;在其任上永州发生了“唐慧案”。2010年1月,任湘潭市人民政府副市长、市公安局局长。2014年10月,任湖南省人民检察院党组成员、政治部主任;2016年7月任湖南省人民检察院党组成员、副
  • 卡尼奥拉公国卡尼奥拉公国(斯洛文尼亚语:Vojvodina Kranjska,德语:Herzogtum Krain;英语:Duchy of Carniola)是神圣罗马帝国的一个帝国政治体,成立于1364年。1804年开始,卡尼奥拉公国成为奥地利帝国的一部分,并在1849年之前是伊利里亚王国的一部分,首都是卢比安纳。卡尼奥拉公国面积9,904平方千米(3,824平方英里)。1914年一战爆发之前,卡尼奥拉公国人口约有53万人。1918年奥匈帝国解体后与塞尔维亚帝国合并成为斯洛文尼亚人、克罗地亚人和塞尔维亚人国。