信息抽取

✍ dations ◷ 2025-12-06 05:09:12 #人工智能,图书资讯科学

信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。

信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。

信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。

信息抽取的基本任务包含了:

在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。

信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。

一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。

信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。

《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 体节体节(somite or metamere)为动物胚胎中身体分节发育的单位。在原始甲壳类中,体节被认为是身体构造的一部分。再现生甲壳类身上,某些体节可能已经融合。
  • 朱利叶斯·阿克塞尔罗德朱利叶斯·阿克塞尔罗德(英语:Julius Axelrod,1912年5月30日-2004年12月29日),美国生物化学家。他与伯纳德·卡茨、乌尔夫·冯·奥伊勒一起获得1970年诺贝尔生理学或医学奖。1912
  • 月经禁忌月经(英语:menstruation, period, monthly,古代叫做癸水,俗称姨妈到、好朋友、大姨妈、来M等),是指女性血液或黏膜定期从子宫内膜经阴道排出体外的现象。高达80%女性曾表示在月经
  • 阿波罗8号阿波罗8号(Apollo 8)是阿波罗计划中的第二次载人飞行任务,三位执行此任务的航天员分别为指令长弗兰克·博尔曼、指令舱驾驶员詹姆斯·洛威尔以及登月舱驾驶员威廉·安德斯。阿
  • 灵山灵山县在中国广西壮族自治区南部,是钦州市所辖的一个县。总面积为3550平方公里,2010年人口为156.5万。位于广西南部,钦州市东北部,县城距南宁市120公里,距钦州市100公里,距北海市1
  • 约翰·福布斯·纳什小约翰·福布斯·纳什(英语:John Forbes Nash Jr.,1928年6月13日-2015年5月23日),美国数学家,前马萨诸塞理工学院摩尔荣誉讲师,主要研究博弈论、微分几何学和偏微分方程。晚年为普林
  • 合成钢肥粒铁(α-Fe) 针状肥粒铁(acicular α-Fe) 奥氏体(γ-Fe) 马氏体 波来铁(88%肥粒铁,12%碳化三铁) 变韧铁 粒滴斑铁(波来铁及渗碳体的共晶    混合物,含碳量4.3%) 碳化三铁(Fe3C) β铁
  • 曲鼻龙曲鼻龙属(学名:Sinusonasus)又译窦鼻龙,是兽脚亚目恐龙的一属,属于伤齿龙科,化石发现于中国辽宁省的义县组,地质年代为下白垩纪。模式种是巨齿曲鼻龙(S. magnodens,又译大牙窦鼻龙),是
  • 综合局中国人民解放军军徽中央军委战略规划办公室综合局,位于北京市,是中央军委战略规划办公室下属局,负责该办公室综合业务。在深化国防和军队改革中,2016年1月组建中央军委战略规划
  • 易洛魁联盟易洛魁联盟(Iroquois),又名Haudenosaunee,意译为“居住在长屋的人们”,是北美原住民联盟。使用易洛魁语言的北美原住民部族在今纽约州中部和北部逐渐形成并共同生活,在十六世纪或