知识图谱

✍ dations ◷ 2025-07-11 21:37:41 #知识图谱

知识图谱(Knowledge Graph),是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。知识图谱可以实现Web从网页链接向概念链接转变,支持用户按主题而不是字符串检索,真正实现语义检索。基于知识图谱的搜索引擎,能够以图形方式向用户反馈结构化的知识,用户不必浏览大量网页即能准确定位和深度获取知识。

在知识表示中,知识图谱是一种知识库,其中的数据通过图结构的数据模型或拓扑整合而成。知识图谱通常被用来存储彼此之间具有相互联系的实体。1980年代后期,格罗宁根大学和特文特大学联合启动了一个名为知识图谱的项目。Google、Bing和Yahoo等搜索引擎均已引入知识图谱并在搜索界面的右侧显示。

知识图谱的概念最早由谷歌2012年5月17日提出,其将知识图谱定义为用于增强搜索引擎功能的辅助知识库。但在知识图谱概念问世之前,语义网络技术的研究领域早已开始。2006年,Berners-Lee提出数据链接(linked data)的思想,推广和完善URI (uniform resource identifier) , RDF (resource description framework) , OWL (Web ontology language) 等技术标准,为知识图谱提供了技术基础条件。

三元组是知识图谱的一种通用表示方式,即 G =(E, R, S),其中 E 是知识库中的实体,R 是知识库中的关系,S 代表知识库中的三元组。三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等;属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等;属性值主要指对象指定属性的值,例如中国、1988-09-08等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair, AVP) 可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。

知识图谱在逻辑架构上分为两个层次:数据层和模式层。数据层是以事实(fact)为存储单位的图数据库,其事实的基础表达方式就是“实体-关系-实体”或者“实体-属性-属性值”。模式层存储的是经过提炼的知识,借助本体库来规范实体、关系以及实体类型和属性等之间的关系。

知识图谱的体系架构分为3个部分,分别获取源数据、知识融合和知识计算与知识应用。 知识图谱有两种构建方式,自顶向下和自底向下。在知识图谱发展初期,知识图谱主要借助百科类网站等结构化数据源,提取本体和模式信息,加入到知识库的自顶向下方式构建数据库。现阶段知识图谱大多为公开采集数据并自动抽取资源,经过人工审核后加入到知识库中,这种则是自底向上的构建方式。

知识抽取(information extraction)是构建知识图谱的第一步,为了从异构数据源中获取候选知识单元,知识抽取技术将自动从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息。

实体抽取

实体抽取,也称为命名实体识别(named entity recognition,�NER),指从源数据中自动识别命名实体,这一步是信息抽取中最基础和关键的部分,因为实体抽取的准确率和召回率对后续知识获取效率和质量影响很大。

早期实体抽取的准召率不够理想,但在2004年,Lin等采用字典辅助下的最大熵算法,基于Medline论文摘要的GENIA数据集使得实体抽取的准召率均超过70%。2008年,Whitelaw等提出根据已知实体实例进行特征建模,利用模型从海量数据集中得到新的命名实体列表,然后再针对新实体建模,迭代地生成实体标注语料库。2010年,Jain等提出一种面向开放域的无监督学习算法,事先不给实体分类,而是基于实体的语义特征从搜索日志中识别命名实体,然后采用聚类算法对识别出的实体对象进行聚类。

关系抽取

经过实体抽取, 知识库目前得到的仅是一系列离散的命名实体,。为了得到更准确的语义信息, 还需要从文本语料中提取出实体之间的关联关系, 以此形成网状的知识结构,这种技术则为关系抽取技术。

属性抽取

属性抽取是从不同信息源中采集特定实体的属性信息。例如针对某个公众人物, 可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从各个数据源中汇集属性信息,更完整地表述实体属性。

通过知识抽取的结果可能存在大量冗余和错误信息,形成的结构化信息也会缺乏层次性和逻辑性,因此需要对抽取来的信息做知识融合,消除歧义概念、剔除冗余和错误概念,提升知识质量。

知识融合分为实体链接和知识合并两部分。实体链接(entity linking)指将在文本中抽取出来的实体链接到知识库中正确实体。知识合并指从第三方知识库产品或已有数据化数据中获取知识输入,包括合并外部知识库和合并关系数据库。

通过知识抽取、知识融合得到一系列的基本事实表达,离结构化、网络化的知识体系仍有一段距离。因此还需要针对这些事实表达进行知识加工,包括本体构建、知识推理和质量评估。

本体构建(ontology)指对概念建模的规范,以形式化方式明确定义概念之间的联系。在知识图谱中,本体位于模式层,用于描述概念层次体系的知识概念模版。

知识推理指从知识库中已有的实体关系数据经过计算建立新实体关联,从现有知识中发现新知识,拓展和丰富知识网络。例如已知 (乾隆, 父亲, 雍正) 和 (雍正, 父亲, 康熙) , 可以得到 (乾隆, 祖父, 康熙) 或 (康熙, 孙子, 乾隆) 。知识推理的对象除了实体关系,还包括实体的属性值、本体概念层次关系等。例如已知 (老虎, 科, 猫科) 和 (猫科, 目, 食肉目) , 可以推出 (老虎, 目, 食肉目) 。

因为知识推理的信息基础来源于开放域的信息抽取,可能存在实体识别错误、关系抽取错误等问题,因此知识推理的质量也可能存在对应问题,需要在入知识库之前,将推理得来的知识进行质量评估。2011年,Fader采用人工标注方式对1000个句子中的实体关系三元组进行标注,并作为训练集得到逻辑斯蒂回归模型,用于对REVERB系统的信息抽取结果计算置信度。另外,谷歌的Knowledge Vault从全网范围内抽取结构化的数据信息, 并根据某一数据信息在整个抽取过程中抽取频率对该数据信息的可信度进行评分, 然后利用从可信知识库Freebase中的先验知识对已评分的可信度信息进行修正, 这一方法有效降低对数据信息正误判断的不确定性, 提高知识图谱中知识的质量。

Google Now

Web Open Data

Microsoft Cortana

Web Open Data

The World Book

Encyclopedia

YAGO KB

NELL KB

YAGO KB

NELL KB

Wikipedia

Web Open Data

Wikipedia

受到算法准召率低、限制条件多、扩展性不好等问题,针对开放域的信息抽取仍面对很大挑战。

实体消歧、合并外部数据库和关系数据库的应用效果仍有很大提升空间。

本体构建中的聚类问题、质量评估的标准和指标的建立和知识推理的技术思维限制,都是知识加工的重要难点。

相关

  • 尼科西亚塞浦路斯239,277  北塞浦路斯71,078 310,355(总计)尼科西亚(希腊语:Λευκωσία、土耳其语:Lefkoşa),是塞浦路斯共和国及北塞浦路斯土耳其共和国的首都,也同时为塞浦路斯岛
  • 胶南市胶南市,是中国山东省一个已经撤销的县级市,曾由青岛市代管。1945年设置。2012年12月,胶南市并入青岛市黄岛区。东周时是越国晚期的都城所在地,后为楚国所灭;秦置琅琊县,晋废;隋复置
  • 弗雷德里克·汉密尔顿-坦普尔-布莱克伍德,第一代达费林和阿瓦侯爵弗雷德里克·坦普尔·汉密尔顿-坦普尔-布莱克伍德,第一代达费林和阿瓦侯爵(Frederick Temple Hamilton-Temple Blackwood, 1st Marquess of Dufferin and Ava,1826年6月21日-190
  • 马介休马介休(来自葡语:Bacalhau),是鳕鱼经盐腌制而成,是不少葡萄牙菜与澳门葡式美食的主要材料,不少茶餐厅都有马介休菜式供应,较著名的菜式有西洋焗马介休、薯丝炒马介休、炸马介休球、
  • 五硼化二钨五硼化二钨是一种钨化合物,化学式为W2B5,略有人体毒性。外观呈黑色固体,现代化学制程物为粉状,要避免吸入。五硼化二钨可以用2mol的钨与5mol的硼粉在真空或氩气中于1200~1300℃烧
  • 本域口岸坐标:22°35′34″N 103°50′53″E / 22.59278°N 103.84806°E / 22.59278; 103.84806本域口岸(越南语:Cửa khẩu Bản Vược),是越南老街省坝洒县的一个边境口岸。与该口岸
  • 方豪 (明朝)方豪,字思道,开化人。生卒年不详。明朝官员。方豪约于正德年间在世。正德三年(1508年)中进士。授昆山知县,有政绩。迁刑部主事。因谏明武宗南巡被廷杖。历官湖广副使。与杨一清、
  • 黑户黑户是指在中华人民共和国户籍制度下没有获得有效户籍登记的中华人民共和国公民。由于没有户籍,造成公民在教育、就业、结婚等方面基本权利的丧失。根据第六次全国人口普查发
  • 迪尔达尔迪尔达尔(库尔德语:Dildar‎,1918年2月20日-1948年10月),原名尤尼斯·梅莱·雷乌弗(库尔德语:Yûnis Mele Re'ûf‎),库尔德诗人、人文主义者、社会活动家,1918年2月20日生于奥斯曼帝国摩苏尔省科伊桑贾克(英语:Koy Sanjaq)(今位于伊拉克库尔德斯坦埃尔比勒省),1948年10月12日逝世于埃尔比勒。他在Ranye开始上学,在基尔库克完成高中,后来移居巴格达学习法律,求学时,他加入了Hiwā党,该党致力于库尔德斯坦统一,是该领域第一个合法组织。1945年从法律学
  • 斯文·阿克斯布姆斯文·阿克斯布姆(瑞典语:Sven Axbom,1926年10月15日-2006年4月8日),瑞典男子足球运动员,司职后卫。他曾代表瑞典国家队参加1958年国际足联世界杯,获得亚军。他于2006年去世,享年79岁。