信息抽取

✍ dations ◷ 2025-06-29 00:31:09 #人工智能,图书资讯科学

信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。

信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。

信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。

信息抽取的基本任务包含了:

在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。

信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。

一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。

信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。

《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • RTA肾小管性酸中毒(英语:Renal tubular acidosis、英语:RTA)涉及在体内酸的积累酸中毒(acidosis)、起于肾脏未能适当地酸化尿液而造成的医学疾病。当血液通过肾脏的过滤,滤液穿过
  • 冥王星冥王星(小行星序号:134340 Pluto。天文代号:♇,Unicode编码U+2647)是柯伊伯带中的矮行星。冥王星是第一颗被发现的柯伊伯带天体。冥王星是太阳系内已知体积最大、质量第二大的矮
  • 血块血块是血液凝固后的产物,主要由血小板聚集,加上血液内含的凝血因子所构成,若是因身体损伤而形成,于生理上属于正常现象,但若造成血栓,则会带来病理上的影响。
  • 张才张才(英语:Chang Tsai;1916年-1994年5月4日),台湾摄影家。出生于台北大稻埕,青年时期受兄长张维贤影响赴日本研习摄影。与同时期的邓南光、李鸣雕并称为“摄影三剑客”或“快门三剑
  • 康铜康铜(英语:Constantan)是一种铜镍合金,由55%的铜和45%镍(Cu55Ni45)或55%的铜、44%镍、与1%锰(Cu55Ni44Mn1)所组成,它的电阻率高,且电阻特性是不易随温度变化而改变。另一种具有相似特
  • 気象庁气象厅(日语:気象庁/きしょうちょう Kishō chō,Japan Meteorological Agency,JMA)是日本国土交通省辖下的外局之一(国土交通省设置法(日语:国土交通省設置法)第46条),根据《气象业务
  • 沙特国王大学沙特国王大学(阿拉伯语:جامعة الملك سعود‎)是位于沙特阿拉伯利雅得的一所公立大学,由沙特·本·阿卜杜勒创立于1957年,当时称利雅得大学,是该国第一个非宗教主导的
  • 默塞德加大加利福尼亚大学默塞德分校(University of California, Merced,缩写为UC Merced)是一所位于加州中部圣华金谷(San Joaquin Valley)中默塞德市近郊的一所大学。 她是加利福尼亚大学
  • 月见草月见草(学名:Oenothera biennis)为柳叶菜科月见草属下的一个种。
  • 约瑟夫·熊彼特约瑟夫·阿洛伊斯·熊彼特(德语:Joseph Alois Schumpeter,或译为熊彼德,1883年2月8日-1950年1月8日)是奥地利一位有深远影响的政治经济学家。熊彼特在1883年出生于奥匈帝国摩拉维