信息抽取

✍ dations ◷ 2024-09-20 10:50:38 #人工智能,图书资讯科学

信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。

信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。

信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。

信息抽取的基本任务包含了:

在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。

信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。

一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。

信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。

《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 硫化铝硫化铝(Aluminium sulfide),化学式为Al2S3,将其投入水中会发生双水解反应生成硫化氢及氢氧化铝:由于硫化铝的双水解反应,最简单的硫化铝制备方法是,将铝粉与硫粉共热:
  • 吕克·贝松吕克·贝松(法语:Luc Besson;法语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gent
  • 光系统 II光系统II (或水 - 质体醌氧化还原酶 )是氧光合作用的光依赖性反应中的第一个蛋白质复合物。它位于植物、藻类和蓝细菌的类囊体膜中。 在光系统中,酶捕获光的光子以激发电子,然后
  • 亚磺酸亚磺酸是一类亚磺酸基(-SO2H)与烃基(-R)相连而成的化合物的统称。通式 RSO2H。可用作有机合成及电镀添加剂,也可作氧化还原聚合反应的催化剂。一般为油状液体或结晶。低级亚磺酸
  • 洪家兴洪家兴(1942年11月5日-),中国数学家。生于上海,籍贯江苏吴县。1965年毕业于复旦大学数学系,1982年获该校博士学位。1995年获得陈省身数学奖。2003年当选为中国科学院院士。 复旦大
  • 远传电信股份有限公司坐标:25°01′33.6″N 121°32′57.5″E / 25.026000°N 121.549306°E / 25.026000; 121.549306远传电信(简称远传,英语:Far Eas Tone,缩写:FET)是台湾第三大电信运营商,由远东集团
  • 吉打吉打(马来语:Kedah)是马来西亚的一州,位于马来西亚半岛西北部。其西北与玻璃市州为邻,北及东分别与泰国的宋卡府及惹拉府为邻,南边为霹雳州,西南边为槟城州,西边邻海。吉打州被暹罗
  • 尤马尤马 (英语:Yuma;莫哈维语:Kwichaan Nyava)是美国亚利桑那州的一座城市,位于该州西南部、希拉河与科罗拉多河汇合处以西,邻近加州和墨西哥。是尤马县县治。2000年人口77,515 人,2005
  • 日本银带鲱日本银带鲱(学名:),俗名丁香鱼、魩仔,为辐鳍鱼纲鲱形目鲱科的其中一种。本鱼分布于印度西太平洋海域,包括东非、红海、马尔代夫、塞舌尔群岛、斯里兰卡、印度、马来西亚、印尼、泰
  • 恩斯特·费尔恩斯特·费尔(Ernst Fehr,1956年6月21日-)是奥地利经济学家。他是瑞士苏黎世大学微观经济学和实验经济学教授、经济系主任。他的研究领域是人类合作和社交的演化,尤其是社会正义