信息抽取

✍ dations ◷ 2025-05-18 23:20:24 #人工智能,图书资讯科学

信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。

信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。

信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。

信息抽取的基本任务包含了:

在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。

信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。

一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。

信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。

《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 比较比照法(comparative method)或比较法是一套比较语言学的研究方法,语言学家用它来揭示语言间的源流关系。它的任务是通过同源词的比较来证明两种或多种切实存在或存在过的语言拥
  • 国立空中大学国立空中大学(英语译名:National Open University),简称空大、NOU,创立于1986年,为台湾第10所国立大学、台湾规模最大的空中大学,成立依《大学法》及《空中大学设置条例》之规定。
  • 艾伦·谢泼德小艾伦·巴特雷特·谢泼德少将(英语:Alan Bartlett Shepard Jr.,1923年11月18日-1998年7月21日)是一位美国航天员、海军航空兵、试飞员,也是一位商人。他是美国国家航空航天局最早
  • 维多利亚瀑布维多利亚瀑布(英语:Victoria Falls)或称莫西奥图尼亚瀑布(赞比亚汤加语:Mosi-oa-Tunya),位于非洲赞比西河的中游,赞比亚与津巴布韦之间,是世界三大瀑布之一。它宽约1.7千米,高约128米
  • 威廉·史密斯威廉·史密斯(William Smith,1769年3月23日-1839年8月28日)是一位英国地质学家,他对地层学的发展有重要贡献,他在1815年编绘了最早的英格兰和威尔士现代地质图,很多由他命名的地层
  • 恐惧恐惧(英语:fear)是指人或动物面对现实的或想像中的危险、自己厌恶的事物等产生的处于惊慌与紧急的状态,伴随恐惧而来的是心率改变、血压升高、盗汗、颤抖等生理上的应急反应,有时
  • 门冬酰胺天冬酰胺(英语:Asparagine,简称为Asn或N;而Asp或D代表天冬氨酸)。它是20种最常见的氨基酸之一,但不是必需氨基酸,合成的密码子是AAU和AAC,可用于制作代糖。加热到足够高的温度时,天冬
  • 普超英普超英(1960年-),女,彝族,祖籍云南,生于湖北武汉,中国大陆演员。代表作有电视剧《情满珠江》,电影《女人花》、《复仇的女人》等。
  • 莫斯科奥运第二十二届夏季奥林匹克运动会(英语:the Games of the XXII Olympiad,法语:les Jeux de la XXIIe Olympiade,俄语:Игры XXII Олимпиады),于1980年7月19日至8月3日在苏
  • 中国人民政治协商会议br /湖南省委员会中国人民政治协商会议湖南省委员会,简称湖南省政协,成立于1955年2月。它的前身是湖南省各界人民代表会议协商委员会(简称湖南省协商委员会)。