首页 >
撷取
✍ dations ◷ 2025-12-08 23:17:44 #撷取
信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。信息抽取的基本任务包含了:在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。《图书信息检索技术》卜小蝶著:文华,台北市,民85
相关
- 垂体脑下垂体(法语、德语: Hypophyse,英语:pituitary gland,亦称为脑垂体)位于脑底部的中央位置,在蝶骨中的蝶鞍内,它的上方有视神经经过,两侧被海绵静脉窦所包围,它的底部为蝶窦及鼻咽。
- 达托霉素达托霉素 (Daptomycin),是脂蛋白抗生素,用来治疗威胁系统和生命的革兰氏阳性菌所造成的感染。达托霉素自然存在于土壤腐生营养玫瑰孢链霉菌(英语:Streptomyces roseosporus)中。达
- 老普林尼盖乌斯·普林尼·塞孔杜斯(拉丁语:Gaius Plinius Secundus,23年-79年8月24日),常称为老普林尼或大普林尼,古罗马作家、博物学者、军人、政治家,以《自然史》(一译《博物志》)一书留名
- 真菌修复真菌修复(Mycoremediation)是一个由美国真菌学家保罗·史塔曼兹创立的新词,是生物修复的一种,意指以真菌来降解环境中的污染物。真菌可分泌酵素到环境中,将许多有机污染物分解成
- 分类单元分类单元(分类群,德语:Taxon)是指分类学上的一个群体,不管处哪一个分类阶层(taxonomic rank),称此群体为分类群。各个分类阶层皆可能具多个分类群,而其整体亦为一个分类群。分类群可
- 原子原子是元素能保持其化学性质的最小单位。一个正原子包含有一个致密的原子核及若干围绕在原子核周围带负电的电子。而负原子的原子核带负电,周围的负电子带“正电”。正原子的
- 对氨基水杨酸钠4-氨基水杨酸(英语:4-Aminosalicylic acid,又名对氨基水杨酸、氨基水杨酸或PAS)是一种用于治疗结核病的抗菌药。 它也被用于治疗炎症性肠病。 它通过抑制NF-κB及清除自由基而发
- 新英格兰医学杂志《新英格兰医学杂志》(英语:The New England Journal of Medicine;简称 NEJM)是由美国麻省医学协会(英语:Massachusetts Medical Society)所出版的同行评审性质之医学期刊。它也是
- 马其顿方阵马其顿方阵是由马其顿国王腓力二世(前359年-前336年),所创的军队方阵阵型,以16乘16共256名手持长矛及盾牌的步兵所构成的正方形阵形。马其顿密集方阵由马其顿国王腓力二世所创,其
- 四大圣城犹太教四大圣城(希伯来语:.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","Keter Aram Tsova","
