信息抽取

✍ dations ◷ 2024-12-23 00:30:10 #人工智能,图书资讯科学

信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。

信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。

信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。

信息抽取的基本任务包含了:

在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。

信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。

一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。

信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。

《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 核桃油核桃油(英语:Walnut oil)又称胡桃油,是从普通胡桃中提炼的植物油。核桃油主要由多元不饱和脂肪(占总脂肪的72%)组成,其中α-亚麻酸为14%,亚油酸为58%,油酸为13%,饱和脂肪为9%。
  • 马克萨姆-吉尔伯特测序马克萨姆-吉尔伯特测序(英语:Maxam-Gilbert sequencing)是一项由阿伦·马克萨姆与沃尔特·吉尔伯特于1976~1977年间开发的DNA测序方法。此项方法基于:对核碱基特异性地进行局部化
  • 费加罗报费加罗报(Le Figaro)是法国的综合性日报,也是法国国内发行量最大的报纸,报导立场属中间偏右派。《费加罗报》创立于1825年,其报名源自法国剧作家博马舍的政治喜剧《费加罗的婚礼
  • 里昂美术馆里昂美术馆(Musée des beaux-arts de Lyon)是法国城市里昂的市立美术馆,位于沃土广场南侧17和18世纪的原本笃会修道院建筑内。自从1988年到1998年修理后,一直对游客开放。其藏
  • 碘离子碘化物指含有碘离子(I−)的化合物, 包括以碘化铯为例的离子化合物以及以四碘化碳为例的共价化合物。大多数离子性碘化物都是可溶于水的,除了黄色的碘化银和碘化铅。检验碘离子时
  • 迪德夫拉雷吉德夫(或名拉迪耶迪夫,Radjedef;约公元前2528年-约公元前2520年在位)是古埃及第四王朝法老,是胡夫的儿子,卡夫拉的同父异母兄弟。一般人认为他因谋杀了他的哥哥卡瓦布,原来的王位
  • 第三中间期第八第十第三中间时期,即古埃及自法老拉美西斯十一世于公元前1070年代死后,至普萨美提克一世于前664年驱逐第二十五王朝的努比亚统治者、创立第二十六王朝之前的一段时期。这
  • 盖亚理论盖亚假说(英语:Gaia hypothesis)是由詹姆斯·洛夫洛克(James Lovelock)在1972年提出的一个假说。“地球整个表面,包括所有生命(生物圈),构成一个自我调节的整体,这就是我所说的盖亚。
  • TEDTED Conference LLC.(指Technology, Entertainment, Design在英语中的缩写,即技术、娱乐、设计)是美国的一家私有非营利机构,该机构以它组织的TED大会著称。TED诞生于1984年,其创
  • 波特维尔波特维尔(英文:Porterville),是美国加利福尼亚州图莱里县下属的一座城市。建市于1902年5月7日,面积 大约为17.61平方英里 (45.6平方公里)。根据2010年美国人口普查,该市有人口54,1