知识图谱

✍ dations ◷ 2025-02-24 01:44:36 #知识图谱

知识图谱(Knowledge Graph),是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。知识图谱可以实现Web从网页链接向概念链接转变,支持用户按主题而不是字符串检索,真正实现语义检索。基于知识图谱的搜索引擎,能够以图形方式向用户反馈结构化的知识,用户不必浏览大量网页即能准确定位和深度获取知识。

在知识表示中,知识图谱是一种知识库,其中的数据通过图结构的数据模型或拓扑整合而成。知识图谱通常被用来存储彼此之间具有相互联系的实体。1980年代后期,格罗宁根大学和特文特大学联合启动了一个名为知识图谱的项目。Google、Bing和Yahoo等搜索引擎均已引入知识图谱并在搜索界面的右侧显示。

知识图谱的概念最早由谷歌2012年5月17日提出,其将知识图谱定义为用于增强搜索引擎功能的辅助知识库。但在知识图谱概念问世之前,语义网络技术的研究领域早已开始。2006年,Berners-Lee提出数据链接(linked data)的思想,推广和完善URI (uniform resource identifier) , RDF (resource description framework) , OWL (Web ontology language) 等技术标准,为知识图谱提供了技术基础条件。

三元组是知识图谱的一种通用表示方式,即 G =(E, R, S),其中 E 是知识库中的实体,R 是知识库中的关系,S 代表知识库中的三元组。三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等;属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等;属性值主要指对象指定属性的值,例如中国、1988-09-08等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair, AVP) 可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。

知识图谱在逻辑架构上分为两个层次:数据层和模式层。数据层是以事实(fact)为存储单位的图数据库,其事实的基础表达方式就是“实体-关系-实体”或者“实体-属性-属性值”。模式层存储的是经过提炼的知识,借助本体库来规范实体、关系以及实体类型和属性等之间的关系。

知识图谱的体系架构分为3个部分,分别获取源数据、知识融合和知识计算与知识应用。 知识图谱有两种构建方式,自顶向下和自底向下。在知识图谱发展初期,知识图谱主要借助百科类网站等结构化数据源,提取本体和模式信息,加入到知识库的自顶向下方式构建数据库。现阶段知识图谱大多为公开采集数据并自动抽取资源,经过人工审核后加入到知识库中,这种则是自底向上的构建方式。

知识抽取(information extraction)是构建知识图谱的第一步,为了从异构数据源中获取候选知识单元,知识抽取技术将自动从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息。

实体抽取

实体抽取,也称为命名实体识别(named entity recognition,�NER),指从源数据中自动识别命名实体,这一步是信息抽取中最基础和关键的部分,因为实体抽取的准确率和召回率对后续知识获取效率和质量影响很大。

早期实体抽取的准召率不够理想,但在2004年,Lin等采用字典辅助下的最大熵算法,基于Medline论文摘要的GENIA数据集使得实体抽取的准召率均超过70%。2008年,Whitelaw等提出根据已知实体实例进行特征建模,利用模型从海量数据集中得到新的命名实体列表,然后再针对新实体建模,迭代地生成实体标注语料库。2010年,Jain等提出一种面向开放域的无监督学习算法,事先不给实体分类,而是基于实体的语义特征从搜索日志中识别命名实体,然后采用聚类算法对识别出的实体对象进行聚类。

关系抽取

经过实体抽取, 知识库目前得到的仅是一系列离散的命名实体,。为了得到更准确的语义信息, 还需要从文本语料中提取出实体之间的关联关系, 以此形成网状的知识结构,这种技术则为关系抽取技术。

属性抽取

属性抽取是从不同信息源中采集特定实体的属性信息。例如针对某个公众人物, 可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从各个数据源中汇集属性信息,更完整地表述实体属性。

通过知识抽取的结果可能存在大量冗余和错误信息,形成的结构化信息也会缺乏层次性和逻辑性,因此需要对抽取来的信息做知识融合,消除歧义概念、剔除冗余和错误概念,提升知识质量。

知识融合分为实体链接和知识合并两部分。实体链接(entity linking)指将在文本中抽取出来的实体链接到知识库中正确实体。知识合并指从第三方知识库产品或已有数据化数据中获取知识输入,包括合并外部知识库和合并关系数据库。

通过知识抽取、知识融合得到一系列的基本事实表达,离结构化、网络化的知识体系仍有一段距离。因此还需要针对这些事实表达进行知识加工,包括本体构建、知识推理和质量评估。

本体构建(ontology)指对概念建模的规范,以形式化方式明确定义概念之间的联系。在知识图谱中,本体位于模式层,用于描述概念层次体系的知识概念模版。

知识推理指从知识库中已有的实体关系数据经过计算建立新实体关联,从现有知识中发现新知识,拓展和丰富知识网络。例如已知 (乾隆, 父亲, 雍正) 和 (雍正, 父亲, 康熙) , 可以得到 (乾隆, 祖父, 康熙) 或 (康熙, 孙子, 乾隆) 。知识推理的对象除了实体关系,还包括实体的属性值、本体概念层次关系等。例如已知 (老虎, 科, 猫科) 和 (猫科, 目, 食肉目) , 可以推出 (老虎, 目, 食肉目) 。

因为知识推理的信息基础来源于开放域的信息抽取,可能存在实体识别错误、关系抽取错误等问题,因此知识推理的质量也可能存在对应问题,需要在入知识库之前,将推理得来的知识进行质量评估。2011年,Fader采用人工标注方式对1000个句子中的实体关系三元组进行标注,并作为训练集得到逻辑斯蒂回归模型,用于对REVERB系统的信息抽取结果计算置信度。另外,谷歌的Knowledge Vault从全网范围内抽取结构化的数据信息, 并根据某一数据信息在整个抽取过程中抽取频率对该数据信息的可信度进行评分, 然后利用从可信知识库Freebase中的先验知识对已评分的可信度信息进行修正, 这一方法有效降低对数据信息正误判断的不确定性, 提高知识图谱中知识的质量。

Google Now

Web Open Data

Microsoft Cortana

Web Open Data

The World Book

Encyclopedia

YAGO KB

NELL KB

YAGO KB

NELL KB

Wikipedia

Web Open Data

Wikipedia

受到算法准召率低、限制条件多、扩展性不好等问题,针对开放域的信息抽取仍面对很大挑战。

实体消歧、合并外部数据库和关系数据库的应用效果仍有很大提升空间。

本体构建中的聚类问题、质量评估的标准和指标的建立和知识推理的技术思维限制,都是知识加工的重要难点。

相关

  • 孟德尔遗传孟德尔定律是一系列描述了生物特性的遗传规律并催生了遗传学诞生的著名定律,包括两项基本定律和一项原则即:显性原则、分离定律(孟德尔第一定律),以及自由组合定律(孟德尔第二定律
  • 熔炉熔铁炉是一种用来加热金属的火炉,或是一个放置这种火炉的工作站(铁匠铺)。铁匠用熔铁炉把金属加热到一定温度来更容易地通过锻造使金属成型,或是把金属加热到不再发生硬化为止
  • 行星际空间外层空间,亦称外太空、宇宙空间,简称空间、外空或太空(英语:outer space),指的是地球大气层及其他天体之外的虚空区域。与真空有所不同的是,外层空间含有密度很低的物质,以等离子态
  • 国立北平大学国立北平大学,是民国时期将数所北平(今北京市)附近的高等学校合并而成的大学,并非北京大学。1927年,北洋政府因为连年军阀混战,国库空虚,且因为各大学科系重复设置,资源重复浪费,下令
  • 基隆·弗瑞曼基隆·弗瑞曼(英语:Kieron Freeman;1992年3月21日-)是一位英格兰足球运动员。在场上的位置是后卫。他现在效力于英超球队谢菲尔德联。
  • 中国好舞蹈《中国好舞蹈》是浙江卫视和灿星制作打造的一档综艺舞蹈选秀节目,共12期。于2014年4月16日起每晚21:10分在浙江卫视播出,节目特邀导师郭富城、海清、金星,总教头方俊,特约评论员
  • 复兴大楼复兴大楼的盖造及完工(1998~2001)为着应付召会人数繁增的需要,台中召会当时积极规划兴建一栋具有多功能使用的大会所。1995年长老团弟兄们到美国与李常受弟兄寻求交通,李弟兄
  • 马里·儒勒·杜白蕾马里·儒勒·杜白蕾(法语:Marie Jules Dupré,1813年11月25日-1881年2月8日),越南史料称之为游悲黎,法国军人、殖民官员。杜白蕾出生在留尼汪岛。1831年毕业于法国海军学院(École n
  • 金约赫山坐标:47°32′20″N 11°0′0″E / 47.53889°N 11.00000°E / 47.53889; 11.00000金约赫山(德语:Kienjoch),是德国的山峰,位于该国东南部,由巴伐利亚负责管辖,属于阿尔高阿尔卑斯山
  • 世界厕所日世界厕所日(英语:World Toilet Day)是联合国正式国际纪念日(英语:List of minor secular observances),旨在启发激烈采取行动应对全球卫生设施危机。目前全球有42亿人过着没有可管理安全卫生设施(英语:Improved sanitation)的生活,约6.73亿人还在露天排便:74。因此联合国提出可持续发展目标第6号(英语:Sustainable Development Goal 6),目标实现卫生设施全球覆盖,消除露天排便陋习,世界厕所日便是顺应这一目标而举行