信息抽取

✍ dations ◷ 2025-07-20 04:58:34 #人工智能,图书资讯科学

信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。

信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。

信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。

信息抽取的基本任务包含了:

在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。

信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。

一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。

信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。

《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 牙列齿列(亦作牙列、齿系、牙系)指的是动物口腔中全套牙齿的发育和排列模式。除单孔目、贫齿目、穿山甲属和鲸目以外,所有哺乳动物都具备四种类型的牙齿,而且每一类型的牙齿,与物种相
  • 肾小管液肾小管液(Tubular fluid)为肾脏的小管之流体。它在肾小球进行超滤作用,改变通过肾单位的流体成分,并通过输尿管最终变为尿液。通过肾单元之肾小管液从近曲小管流至集合小管(coll
  • Ada语言AdaCore GNAT, Green Hills Software(英语:Green Hills Software) Optimising Ada 95 compiler,Ada,是一种程序设计语言。它源于美国军方的一个计划,旨在集成美军系统中运行着上
  • 咨询咨询(英语:Consultation)的定义是透过一个助人专业服务的过程,去协助被咨询者处理个案系统的相关工作或者是管理上的问题,其目标是利用某些特殊的方式来帮助被咨询者与个案系统。
  • 异教徒不信者,或异教徒(英语:Infidel,字面意“不信者”)为基督教或伊斯兰教对无宗教或异教人士的称呼。在一神教世界通常为骂人词汇。不过某些伊斯兰教学者认为伊斯兰教中引用“异教徒
  • 动物模型动物模型是活的非人类动物,在调查与研究人类疾病期间使用,以达成更好地理解疾病,并避免对真人造成损害的附加风险的目的。动物的选择,通常满足生物分类所确定的对人类等价性,因而
  • 沙巴自治北婆罗洲自治日(马来语:Hari Pemerintahan Sendiri Borneo Utara,英语:North Borneo Self-government Day),是一个庆祝马来西亚沙巴州获得自治的节日,日期订于每年的8月31日。自201
  • 朱苏力朱苏力(1955年4月1日-),出生于安徽合肥,中国法学家,北京大学教授,曾任北京大学法学院院长。1970年入伍。1978年考入北京大学法律系。1985年,赴美公派留学。1992年回国,在北京大学法律
  • 美国东北部美国东北部为美国人口调查局所定义的美国地区。美国东北部北临加拿大,西临中西部,南接美国南部,东向大西洋。此区域乃美国工商业最发达的区域及都市化程度最高的区域,美国第一大
  • 体温调节体温调节(thermoregulation),指温度感受器接受体内和外在环境温度的刺激,通过体温调节中枢的活动,引起内分泌腺、骨骼肌、皮肤血管和汗腺等组织和器官活动的改变使人体体温维持恒