信息抽取

✍ dations ◷ 2025-02-26 05:59:29 #人工智能,图书资讯科学

信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。

信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。

信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。

信息抽取的基本任务包含了:

在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。

信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。

一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。

信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。

《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 米尔顿·奥博特阿波罗·米尔顿·奥博特(斯瓦希里语:Apollo Milton Obote,1924年12月28日-2005年10月10日),乌干达政治家,1962至1966年间出任该国总理,1966至1971及1980至1985年期间两度出任总统。1
  • 美国疾病控制中心美国疾病控制与预防中心(英语:Centers for Disease Control and Prevention,缩写为CDC)是美国卫生与公众服务部所属的一个机构,总部设在乔治亚州亚特兰大。作为美国联邦政府行政
  • 太阳眼镜太阳眼镜,又称墨镜或者太阳镜,是为了保护眼睛所设计的护目镜,镜片往往是黑色或深色,借此来避免阳光(尤其是紫外线)刺激眼部,同时太阳眼镜有寿命需定期送检。在史前时代,因纽特人早已
  • 北亚当斯坐标:42°42′03″N 73°06′33″W / 42.70083°N 73.10917°W / 42.70083; -73.10917北亚当斯(英语:North Adams)是美国马萨诸塞州伯克夏县的一个城市,位于该州的西北部。面积53
  • 生物药剂学生物药剂学是研究给药后药物的吸收(Absorption)分布(Distribution)代谢(Metabolism)排泄(Elimination) 的整个体内过程,包含各种制剂因素和生物因素对这一过程与药效的影响。此外,生
  • 分手信《分手信》(英语:Dear John)是一部2010年上映的美国电影,改编自小说《分手信》。本片由莱塞·霍尔斯道姆执导,主要演员有查宁·塔图姆、阿曼达·西耶弗里德、斯科特·波特,北美地
  • 恙虫见内文恙螨目(Trombidiformes),亦作绒螨目,是一个数量庞大而且分散的一个目,属于蛛形纲蜱螨亚纲螨形总目之下,其幼虫英文称为chigger。根据2004年时的分类,本目包括有125个科,超过2.
  • 小卡尔·林奈小卡尔·林奈(Carl Linnaeus the Younger、Carl von Linné、Carolus Linnaeus the Younger、Linnaeus filius,1741年1月20日-1783年11月1日)为瑞典自然学家。其为卡尔·林奈的
  • 兴 恩兴恩(1826年-1883年),字耀廷,号承斋,苏完地方富察氏,内务府满洲正白旗人。兴恩是道光二十九年己酉科举人,咸丰二年壬子科三甲同进士出身,经过考试获选成为翰林院庶吉士、侍读学士;同治
  • 大马哈鱼Salmo keta Walbaum, 1792大马哈鱼(学名:Oncorhynchus keta),又称日本鲑鱼、狗鲑、秋鲑、白鲑,为马哈鱼属的一个种。分布于北太平洋,从韩国、日本、西伯利亚东岸到白令海、中国黑