撷取

✍ dations ◷ 2025-10-08 15:50:32 #撷取
信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。信息抽取的基本任务包含了:在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 酸杆菌门酸杆菌门(Acidobacteria)是新近被分出的一门细菌。它们是嗜酸菌。现在对它们研究还很少,但它们在生态系统中具有重要作用,比如土壤中。
  • 非洲人类锥虫病非洲人类锥虫病(法语:Trypanosomiasis africain; 英语:African trypanosomiasis)或称昏睡病、嗜睡病(英语:sleeping sickness),是一种由布氏锥虫(英语:Trypanosoma brucei)引起的寄生虫
  • 嗜中性白细胞低下嗜中性白血球低下症(Neutropenia 或 Neutropaenia),亦称中性粒细胞减少症,是血液中的一种中性粒细胞(一种白血球细胞)浓度异常低的血液系统疾病,中性粒细胞弥补大多数的循环白血球,
  • IL31JLI3562n/aENSG00000164399n/aP08700n/aNM_000588n/aNP_000579n/a白细胞介素3(英语:Interleukin 3,IL-3)是一种蛋白质,在人体中由IL 3 基因编码。白细胞介素3是白介素,一个类生
  • 后心肌梗塞症候群后心肌梗塞症候群(postmyocardial infarction syndrome),又称卓斯勒症候群(Dressler syndrome),是描述在心肌细胞或心包膜在受损后产生的后天性(英语:acquired)心包炎。常见症状包含
  • 地图学small/small地图学(英语:Cartography;希腊语:χάρτης ,即为英文的Mapmaking,chartis是地图,graphein是编写之意)是研究地图的理论、编制技术与应用方法的科学。传统的地图制作是利用纸和
  • 赤藓酮糖D-赤藓酮糖(英语:Erythrulose)分类上属于丁糖与酮糖,其醛糖形式是赤藓糖。是在某些细菌作用下,由赤藓糖醇氧化而得。对碱敏感。可溶于水及乙醇。果聚糖:菊粉 · 果聚糖β2→6甘
  • 延胡索酸延胡索酸(Fumaric Acid),又名富马酸、紫堇酸或地衣酸,即反丁烯二酸(IUPAC名为(E)-丁烯二酸),是一种无色、易燃的晶体,由丁烯衍生出的羧酸。它的化学式是C4H4O4。燃烧延胡索酸会释
  • 宏语宏语(Taa、/ˈtɑː/、ǃXoon (!Khong, !Xóõ) /ˈkoʊ/ 或扎希语(Tsasi))属科依桑语系,以音位众多而著称。2002年时,有4200名使用者,主要分布在博茨瓦纳(~4000人)和纳米比亚。
  • 前提前件(antecedent),亦称前提,是假言命题的前半部分。例子:这是假言命题的标准逻辑公式。在这种情况下,前件是P。X是人是这个命题的前件。这里的人类已经在月亮上行走是前件。