撷取

✍ dations ◷ 2025-06-27 13:09:56 #撷取
信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。信息抽取的基本任务包含了:在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 血液检查血液检查(英语:Blood test),是指通过采血以获得受检者的血液,并利用其进行临床检查以获取受检者的健康状况。主要通过医检师进行检验。血液检查主要用于判断患者在一定时间内的身
  • 微小核糖核酸病毒Enterovirus Rhinovirus Hepatovirus Cardiovirus Apthovirus Parechovirus Erbovirus Kobuvirus Teschovirus微小核糖核酸病毒科(picornaviridae)是没有套膜、正股RNA、正20
  • 血色沉着病血色沉着病(Hemochromatosis),又名血色素沉着症、血铁沉积症或血色病是指:
  • 脂毛噬菌体科α脂毛噬菌体属 β脂毛噬菌体属 γ脂毛噬菌体属脂毛噬菌体科Lipothrixviridae名称来源: Lipo(lip-脂肪):根据希腊文,lipos(liposome脂质体),脂肪(fat) Thrix:根据希腊文,thrix,毛发
  • 敲除基因敲除(英语:gene knock-out,缩写为KO)是一种遗传工程技术。是指利用外源的已突变的基因通过同源重组的方法替换掉内源的正常同源基因,从而使内源基因失活而表现突变体的性状的
  • 雷姆利亚大陆雷姆利亚大陆(Lemuria;发音: /lᵻˈmjʊəriə/),又译利莫里亚大陆或狐猴洲,是假设的大陆,位于印度洋海域,介乎马达加斯加岛、泰米尔纳德邦及西澳之间。早年根据陆桥假说,若在马达加
  • 细胞分化细胞分化(英语:cellular differentiation),是发育生物学的研究课题之一,指的是在多细胞生物中,一个干细胞在分裂的时候,其子细胞的基因表达受到调控,例如DNA甲基化,变成不同细胞类型
  • 脉络膜脉络膜(Choroid)是位于视网膜和巩膜之间的组织,主要由色素及微细血管组成,呈暗褐色。其血管供给视网膜葡萄糖及氧气。色素则吸收眼球内多余的光,防止它们因折射和散射而干扰视细
  • 蓖麻毒素结构 / ECOD结构 / ECOD蓖麻毒蛋白(英语:Ricin)是从蓖麻籽中所萃取出来的一种毒性蛋白质,几乎对所有的真核细胞都具有杀伤作用。蓖麻毒蛋白的纯品是一种白色粉末或结晶体,无味,可
  • LispLisp(历史上拼写为LISP)是具有悠久历史的计算机编程语言家族,有独特和完全括号的前缀符号表示法。起源于公元1958年,是现今第二悠久而仍广泛使用的高端编程语言。只有FORTRAN编