信息抽取

✍ dations ◷ 2025-10-03 15:18:29 #人工智能,图书资讯科学

信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。

信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。

信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。

信息抽取的基本任务包含了:

在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。

信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。

一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。

信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。

《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 神经皮肤综合症斑痣性错构瘤病(Phakomatoses)又称为神经皮肤综合征(neurocutaneous syndromes)是一类涉及到皮肤和眼睛的中枢神经系统先天性遗传病。发生斑痣性错构瘤病的组织在胚胎时期都起源
  • 遗传多样性遗传多样性又称为基因多样性(英语:genetic diversity)。同种个体间因为其生活环境的不同,经历长时间的天择、突变所产生的结果。如果遗传多样性越高,则族群中可提供环境天择的基
  • 斑猫详见内文斑猫(学名:Felis silvestris)或称野猫或山猫,是一种小型猫科动物,原生于欧洲地区、亚洲西部,以及非洲。斑猫会猎捕小型哺乳类、鸟类,或是其他体型相仿的动物。斑猫可分为多
  • 羟甲戊二酰辅酶A还原酶抑制剂羟甲基戊二酸单酰辅酶A还原酶抑制剂(英语:HMG-CoA reductase inhibitors 或 Statins,简称“HMG-CoA还原酶抑制剂”或“他汀类药物”)是一类抗高血脂药。因他汀类有降低低密度脂
  • 山地战山地战,是指在高山或类似复杂地形下进行的作战。山地战是最危险的作战形式之一,战斗人员既要和敌军交战,同时也要对抗极端的天候和危险的地形。高山在任何时候都是危险的,山体滑
  • ROC (消歧义)R.O.C.主要被中文用户用以指代 Republic of China ,即 中华民国。 ROC也可以指:
  • 斯里兰卡国会执政联盟(95)在野党派(130)斯里兰卡议会(僧伽罗语:ශ්‍රී ලංකා පාර්ලිමේන්තුව)是斯里兰卡的一院制立法机构,由255名议员组成。议员在普遍选举中以比例代表制选
  • 西德尼·波蒂埃最佳男主角1958年 《逃狱惊魂》西德尼·波蒂埃 KBE (Sidney Poitier,发音: /ˈpwɑːtjeɪ/ 或 /ˈpwɑːti.eɪ/; 1927年2月20日-),生于美国迈阿密,美国演员,导演,作家和外交官,全世
  • 耶稣之地地图耶稣之地地图(Jesusland map)是2004年美国总统大选之后出现在网络上的一个讽刺地图,形容美国红州与蓝州之间巨大的政治鸿沟。在耶稣之地地图中,美国的蓝州部分和加拿大合并成为
  • 马来西亚鞭刑鞭刑是一种在马来西亚广泛施行的合法体罚。鞭刑可以再细分为以下三种情形:司法、伊斯兰教法(sharia)和学校体罚。三种情形中以司法鞭刑程度最为严重。这种刑罚只对触犯法律的男