信息抽取

✍ dations ◷ 2025-04-07 20:54:05 #人工智能,图书资讯科学

信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。

信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。

信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。

信息抽取的基本任务包含了:

在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。

信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。

一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。

信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。

《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 阿兹海默症阿尔茨海默病(拉丁语:Morbus Alzheimer、德语:Alzheimer-Krankheit、英语:Alzheimer's disease,缩写:AD),俗称早老性痴呆、老年痴呆,是一种发病进程缓慢、随着时间不断恶化的神经退化
  • 自恋型人格障碍自恋型人格疾患 (英语:Narcissistic personality disorder, 简称为 NPD)是一种永久性的人格疾患。患者往往会过度夸大强化自我的重要性(英语:Grandiosity),过度渴求别人的赞赏(英语
  • 分解还原论(英语:Reductionism,又译还原主义、简化论、专简论与化约论)是一种哲学思想,认为复杂的系统、事务、现象可以通过将其化解为各部分之组合的方法,加以理解和描述。还原论的思
  • 合胞体合胞体含有由一层细胞膜包绕的多个细胞核的一团细胞质,这通常是由于发生了细胞融合或一系列不完全细胞分裂周期所致,在后一种情况中,核发生了分裂,但细胞却没有分裂。
  • 双脱氧核苷酸双脱氧核苷酸(英语:Dideoxynucleotide)是DNA聚合酶的链终止性抑制剂,应用于DNA测序桑格法。这些核苷酸亦被称为2',3'-双脱氧核苷酸,常被简写为ddNTPs(ddGTP、ddATP、ddTTP与ddCTP)
  • 巴茨县巴茨县(Butts County)是位于美国佐治亚州中部的一个县,面积492平方公里,县治杰克逊。根据2000年美国人口普查,共有人口21,045。巴茨县成立于1825年12月24日。历史 | 经济 | 地
  • 白藜芦醇白藜芦醇(英语:resveratrol)是一种非黄酮类的酚类物质,属于芪类化合物(英语:Stilbenoid)的植物抗毒素(英语:Phytoalexin)。白藜芦醇是植物为了抵御细菌或真菌入侵而产生的物质。天然白
  • 韦恩韦恩国家森林(英语:Wayne National Forest)位于美国俄亥俄州东南部,是俄亥俄州唯一的国家森林,33号美国国道和霍金河都经过韦恩国家森林。
  • 贵州师范学院贵州师范学院为中国贵州省贵阳市的一所公立高校。现有全日制在校生12000多人。1978年,贵州教育学院成立。2009年,该校从市内的河滨、小河老校区整体迁入乌当新校区。同年3月,更
  • 州长 (美国) 美国众议院议长:南希·裴洛西(民主党) 多数党领袖(英语:Party leaders of the United States House of Representatives):斯坦利·霍耶(民主党) 少数党领袖(英语:Party leaders of the