信息抽取

✍ dations ◷ 2025-04-28 06:21:47 #人工智能,图书资讯科学

信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。

信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。

信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。

信息抽取的基本任务包含了:

在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。

信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。

一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。

信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。

《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 食品工业食品产业是全球不同行业的综合体,这些产业提供了由世界人口消费的食物能量的。只有那些自给自足型农业可以被认为不在现代食品产业之内。食品产业包括:依据2009年2月28日第十
  • 系统药理学系统药理学(Systems pharmacology)系将系统生物学知识应用到药理学中而产生的一门学科。该学科旨在阐明药物如何作用于肌体的各系统。和用一种特殊的蛋白质-药物反应来评价一
  • Oxford University Press牛津大学出版社(Oxford University Press,缩写为OUP)是世界上规模最大的大学出版社,排行第二的是剑桥大学出版社,每年出版的书刊逾4000种。该社是牛津大学其中一个部门 ,掌管该社
  • 威廉·哈金斯威廉·哈金斯爵士(英语:Sir William Huggins,1824年2月7日-1910年5月12日),英国皇家学会院士,功绩勋章、巴斯勋章得主,是英国最著名的天文学家之一,在1900至1905年间担任皇家学会的主
  • 花房秀三郎花房秀三郎(日语:はなふさ ひでさぶろう,1929年12月1日-2009年3月15日) 是日本的病毒学者。他是美国洛克菲勒大学荣誉教授、大阪生物科学研究所(日语:大阪バイオサイエンス研究所)荣
  • 石化 (虚构作品)石化在神话、文学、影视和电子游戏等虚构作品很普遍,指人物或动物变成石头或无法动弹的状态。一般来说是由具有此种能力的角色对其他角色实施攻击,被“石化”的角色无法移动并
  • La(NOsub3/sub)sub3/sub硝酸镧是一种无机化合物,化学式为La(NO3)3。硝酸镧可以将氧化镧、氢氧化镧或碳酸镧溶于硝酸得到:所得溶液经过小心蒸发可以得到水合硝酸镧,其中六水合物最常见。将六水合物继续
  • 口前叶口前叶(prostomium),又名前口节、前口叶、头叶,是环节动物等有体节动物以在口一方为前的第一个体节。这部分位于口器所在的围口节之前,往后延伸到口器的背部。长在口前叶上的触角
  • 财务局中国人民解放军军徽中央军委机关事务管理总局财务局,位于北京市,是中央军委机关事务管理总局下属局,负责中央军委机关及有关直属、附属单位的财务工作。在深化国防和军队改革中
  • 格雷迪格雷迪县(Grady County, Oklahoma)是美国奥克拉荷马州中南部的一个县。面积2,863平方公里。根据美国2000年人口普查,共有人口45,516人。县治奇克谢(Chickasha)。成立于1907年7月1