首页 >
撷取
✍ dations ◷ 2024-12-22 21:43:27 #撷取
信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。信息抽取的基本任务包含了:在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。《图书信息检索技术》卜小蝶著:文华,台北市,民85
相关
- RNA核糖核酸(英语:Ribonucleic acid),简称RNA,是一类由核糖核苷酸通过3',5'-磷酸二酯键聚合而成的线性大分子。自然界中的RNA通常是单链的,且RNA中最基本的四种碱基为A(腺嘌呤)、U(尿嘧
- 阿基米德浮体原理阿基米德浮体原理(或直接称为阿基米德原理或浮力原理)是阿基米德发现的原理。该原理是说,浸在流体中的物体(全部或部分)受到竖直向上的浮力,其大小等于物体所排开流体的重力。其公
- 最高法院议长:南希·裴洛西(民主党) 多数党领袖(英语:Party leaders of the United States House of Representatives):斯坦利·霍耶(民主党) 少数党领袖(英语:Party leaders of the United Sta
- 热量计热量计(英语:calorimeter),或称量热计、卡计,是一种用于测量进行热量测定的实验设备,可以用于测量化学反应、物理变化过程的热量变化,或测定材料的热容。最常见的是差示扫描量热计
- 核裂变核裂变(德语:Kernspaltung;英语:nuclear fission),在港台称作核分裂,是指由较重的(原子序数较大的)原子,主要是指铀或钚,裂变成较轻的(原子序数较小的)原子的一种核反应或放射性衰变形式
- 颅内压颅内压 (ICP,Intracranial Pressure)是指颅骨内部脑组织和脑脊液(CSF,Cerebrospinal Fluid)中的压力。颅内压的测量单位是毫米汞柱(mmHg),其成年人正常值在平卧姿势安静状态时
- 马格拉夫马格拉夫(Andreas Sigismund Marggraf,1709年3月3日-1782年8月7日),德国化学家,分析化学的创始人。他在1746年通过加热炉甘石和碳成功地分离了锌。虽然他不算是历史上第一个做到这
- J01A·B·C·D·G·H·QI·J·L·M·N·P·R·S·VATC代码J01(抗菌药)是解剖学治疗学及化学分类系统的一个药物分组,这是由世界卫生组织药物统计方法整合中心(The WHO Collaboratin
- 口水唾液(亦称口涎、口水)是动物口腔内唾液腺分泌的无色且稀薄的液体,其在食物的消化过程中起到十分关键的作用。唾液主要由腮腺(英语:parotid gland)(英语:parotid gland)、颌下腺(英语:su
- 脊椎关节病变脊椎关节病变(英语:spondyloarthropathy,缩写为 SpA)泛指任何影响脊椎关节的关节病变,它是一大类疾病的集合总称,而非单一个特定疾病。脊椎病变则是脊椎骨本身的问题,两者并不相同