撷取

✍ dations ◷ 2025-06-07 03:40:26 #撷取
信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。信息抽取的基本任务包含了:在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 白介素-1结构 / ECOD介白素-1包括11种细胞因子,在机体控制免疫和炎症反应中具有重要作用。这些细胞因子的发现始于1943年至1948年间,Menkin和Beeson对兔子腹腔细胞释放的致热原蛋白质
  • 免疫力免疫(英语:immunity),指生物机体识别和排除抗原物质的一种保护性反应。其中包括特异性免疫(后天免疫系统)与非特异性免疫(先天免疫系统)。“免疫”一词,最早见于中国明代医书《免疫类
  • E00-E90ICD-10 第四章:内分泌、营养和代谢疾病,为WHO规定的已发现的各类内分泌,营养和代谢疾病。甲状腺疾患 (E00-E07)糖尿病 (E10-E14)其他葡萄糖调节和胰腺内分泌的疾患 (E15-E16)其他内分
  • 第五代头孢菌素(法语:Cephalosporine、英语:Cephalosporin),又名先锋霉素,是一系列属于β内酰胺类的抗生素。与头霉素一并细分为头孢烯。头孢菌素化合物最初是于1948年,由意大利科学家Giu
  • Sc3d1 4s22,8,9,2蒸气压第一:633.1 kJ·mol−1 第二:1235.0 kJ·mol−1 第三:2388.6 kJ·mol−1 (主条目:钪的同位素钪(Scandium),其命名Scandium源自斯堪的纳维亚半岛的拉丁文名称Sc
  • 呋喃糖呋喃糖(英文:Furanose)是一种糖,用于总称碳水化合物所具有的化学结构,其中包含一个由四个碳原子和1个氧原子所组成的五元环状结构。呋喃糖是呋喃的衍生物,但是呋喃糖环没有双键
  • 蔗糖蔗糖是一种双糖(葡萄糖+果糖),晶体白色,具有旋光性,但无变旋。易被酸水解,水解后产生等量的D-葡萄糖和D-果糖。不具还原性。发酵形成的焦糖可以用作酱油的增色剂。蔗糖是光合作用
  • 细菌性肠胃炎肠胃炎是以胃和小肠炎症为特征的胃肠道病症,可导致腹泻、呕吐、腹部的疼痛和绞痛合并而成疾病表现。虽然与流感并无关系,但该病也被称为肠胃型感冒和消化道流感。肠胃炎通常是
  • 行为治疗行为治疗(英语:Behavior Therapy、Behavior Treatment)学派关注的是可以观测到的人的外部行为。认为人与其他动物相似,出生以来就具有学习能力,而且遵从着与任何物种相似的原理进
  • 性别认同性别认同(英语:Gender identity)是个人对自己的社会性别的亲身经历。性别认同可能与出生时的性别指定相关(即顺性别),也可能与其不同(即多元性别)。所有社会都有一套性别类别,可以作