撷取

✍ dations ◷ 2024-07-03 08:55:15 #撷取
信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。信息抽取的基本任务包含了:在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。《图书信息检索技术》卜小蝶著:文华,台北市,民85

相关

  • LCCN美国国会图书馆控制号(英语:Library of Congress Control Number,简称LCCN)是美国国会图书馆用于图书记录、编码和查询的序列号。每一本书籍都有相对应的控制号。该号码与书籍内
  • 过劳死过劳死(日语:過労死),源自日语 ,是一种职业性的突然死亡,因工作过度(过劳)致积劳成疾而死。其原因为由压力引起的心脏病发作,或是长期疲倦所导致的中风致死。第一宗有纪录的过劳死个
  • 国际刑事法院国际刑事法院(英语:International Criminal Court,常缩写作:ICC或ICCt;法语:Cour Pénale Internationale)成立于2002年,位于荷兰海牙,工作语言为英语和法语。其主要功能是对犯有灭绝
  • 国际癌症研究机构国际癌症研究机构(英语:International Agency for Research on Cancer,简称IARC)是世界卫生组织下属的一个跨政府机构,办公地点设在法国的里昂。该机构的主要任务是进行和促进对
  • 欧洲蕨(bracken fern学名:Pteridium aquilinum var. latiusculum),俗称蕨菜或拳头菜、龙头菜,是碗蕨科蕨属下的一种蕨类植物。可以食用,但也有研究指出它有毒。同属的其他植物有些
  • 次氯酸水, 次氯酸钙次氯酸钙是钙的次氯酸盐,化学式为Ca(ClO)2,是漂白粉的主要成分之一,有杀菌性及氧化性。与其性质类似的还有氯气及次氯酸钠,但是它们都不如次氯酸钙的稳定性高。漂白粉的组分包含
  • 婴儿严重肌阵挛性癫痫婴儿严重肌阵挛性癫痫(severe myoclonic epilepsy of infancy,SMEI),又称Dravet综合征,是一种癫痫综合征,通常由高温或发热诱发,需用抗惊厥药(英语:anticonvulsant medication)治疗,发
  • 印度南部印度南部是指在今日印度共和国南部的安得拉邦、卡纳塔克邦、喀拉拉邦、泰米尔纳德邦四个邦以及拉克沙群岛和本地治里两个联邦属地组成的范围,共占整个印度的面积达19.31%。在
  • 湿化学湿化学一般是指是液态下进行的化学,在理论化学及计算化学问世之前,大部分化学领域的发现都是以湿化学为主,因此也称为古典化学。传统上湿化学会使用实验室的一些玻璃器材,例如烧
  • 天然药物化学天然产物(英语:Natural product)是在自然界中由活生物产生的那些通常具有药理学或生物学活性的化学物质,可被用于药学上的药物研发与药物设计;而天然产物化学是运用现代化科学理