信息抽取

✍ dations ◷ 2025-08-13 04:28:33 #人工智能,图书资讯科学

信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。

信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。

信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。

信息抽取的基本任务包含了:

在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。

信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。

一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。

信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。

《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 室温常温也叫一般温度或者室温,通常定义为摄氏 25 度。有时会设为 300K(约 27°C),以利于使用绝对温度的计算。不同于标准状况,常温不一定指的是某个特定的温度。
  • 脂肪酸脂肪酸(英语:Fatty acid)是一类羧酸化合物,由碳氢组成的烃类基团连结羧酸所构成。三个长链脂肪酸与甘油形成三酸甘油酯(Triacylglycerols),为脂肪的主要成分,归于脂类。饱和脂肪酸(Sa
  • 谢尔盖·维诺格拉斯基谢尔盖·尼古拉耶维奇·维诺格拉茨基(俄语:Сергей Николаевич Виноградский,1856年9月1日-1953年2月25日),俄国微生物学家,生态学家,和土壤科学家。他
  • 米格尔·巴塞洛米格尔·巴塞洛·阿蒂格(西班牙语:Miquel Barceló Artigues,1957年-),西班牙画家,出身于马略卡费拉尼奇。1970年到巴黎的游历使他认识了涩艺术,对他早期发布的作品有很强的影响。是
  • 亚美尼亚中央银行亚美尼亚中央银行(亚美尼亚语:Հայաստանի Հանրապետության Կենտրոնական Բանկ)是亚美尼亚的中央银行,总部位于亚美尼亚首都埃里温。亚美尼
  • 伊斯法罕伊斯法罕(波斯语:اصفهان‎,转写:Esfahān)为伊朗第三大城市,是伊斯法罕省的省会。据2006年统计,有人口1,583,609人。伊斯法罕早在玛代王国时已存在。在公元前六世纪中叶时成
  • 萨曼萨曼王朝或萨曼帝国(波斯语:سامانیان、Sāmāniyān;英语:Samanids,875年-999年)是一个由波斯人建立的曾经统治着中亚和大伊朗的王朝。王朝的名称是源自创立人萨曼·胡达(Sa
  • 示威示威活动是一群人共同表达意见的展现,是激进主义的一种类型,通常采取一干人集结在同一地方的形式。因为有一群人为了同一意见而集结,他们所主张的意见也因此显得有重要性。示威
  • 大斑灵猫大斑灵猫(学名:Viverra megaspila)是食肉目灵猫科下的一种,分布于亚洲地区。极为稀有的马拉巴灵猫常被视为其亚种。分布于缅甸以及中国大陆的广西(南部)、云南等地。该物种的模式
  • 薄姑薄姑,又被记作蒲姑,中国商代的的一个诸侯国,侯爵。该国故地位于今山东省鲁北地区,西周初年被灭后其地被封给了齐国。《左传·昭公九年》记载“及武王克商,蒲姑、商奄,吾东土也”,周