撷取

✍ dations ◷ 2025-05-15 16:50:41 #撷取
信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。信息抽取的基本任务包含了:在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • 弥散量弥散量或肺扩散容量(Diffusion capacity)是一个测量肺交换气体的能力的指标。它通常是肺功能检查的其中一项指标,在欧洲也被称作“传输系数”("transfer factor")。其标准计算公
  • 失温症失温症(Hypothermia,源自希腊文“ὑποθερμία”),又称低温症、低体温症。描述当人体核心温度低于35.0 °C(95.0 °F)时的现象。失温症的症状取决于温度,轻度失温可能造成发
  • 雷贝拉唑雷贝拉唑(英语:Rabeprazole)是一种质子泵抑制剂(PPI)类胃酸抑制剂。由Eisai Co.公司开发并且现已广泛使用。雷贝拉唑可以短期内缓解十二指肠溃疡和胃食管反流病的症状,并且可以缓
  • β内酰胺类抗生素β-内酰胺类抗生素(Beta-lactam antibiotic)是一种种类很广的抗生素,其中包括青霉素及其衍生物、头孢菌素、单酰胺环类(英语:monobactam)、碳青霉烯和青霉烯类酶抑制剂等。基本上
  • 维伦多尔夫的维纳斯维伦多尔夫的维纳斯(Venus of Willendorf),一座11.1厘米(4又3/8英寸)高的女性小雕塑,1908年出土于考古学家约瑟夫·松鲍蒂(英语:Josef Szombathy)在奥地利的维伦多尔夫村(Willendorf)附
  • 麦芽麦芽(英语:Malt)是将谷物浸泡在水中,促使其发芽,利用其发芽产生的酶,将谷粒中的淀粉转化为麦芽糖,然后再迅速地加热干燥,所产生的产品。,食品工业中一般多用大麦,也有用其他谷物的。麦
  • 肌酸肌酸(英语:creatine),在生物化学中,是一种自然存在于脊椎动物体内的一种含氮的有机酸,能够辅助为肌肉和神经细胞提供能量。米歇尔·欧仁·谢弗勒尔于1832年首次在骨骼肌中发现肌酸
  • 高胱胺酸尿症高胱氨酸尿症(英语:Homocystinuria)是一种遗传病,其会导致体内堆积甲硫氨酸、高胱氨酸、高半胱氨酸及复合双硫化合物,造成智能不足、骨骼畸型、心脏血管疾病等。此遗传病的发生率
  • 萘普生萘普生(英语:Naproxen、INN),是一种NSAID,用于缓解普通或严重的疼痛、发热、发炎,以及由骨关节炎、类风湿性关节炎、银屑病关节炎、痛风、强直性脊柱炎、经痛、肌腱炎、滑囊炎等病
  • UnicodeUnicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文