首页 >
撷取
✍ dations ◷ 2025-10-29 07:04:19 #撷取
信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。信息抽取的基本任务包含了:在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。《图书信息检索技术》卜小蝶著:文华,台北市,民85
相关
- 嗜酸性粒细胞嗜酸性粒细胞(英语:Eosinophil, Eosinocyte 或 Acidophil,全稱 Eosinophilic granulocyte)是粒细胞中含有嗜酸性颗粒的一种,其他两种是中性粒细胞和嗜碱性粒细胞。其吞噬能力不如
- 栉水母动物门栉水母(Ctenophores),又名海胡桃,是一类两胚层动物,属辐射对称动物,现被划分为栉水母动物门(学名:Ctenophora),又名有栉动物门、栉板动物门。原和刺丝胞动物一起分在腔肠动物门,作为无
- Li1s2 2s12, 1蒸气压第一:520.2 kJ·mol−1 第二:7298.1 kJ·mol−1 第三:11815.0 kJ·mol主条目:锂的同位素锂(希腊语:λίθος,拉丁:LITHOS,直译"石头")是一种化学元素。其中文
- 阿美西亚大陆阿美西亚大陆(Amasia)是一个未来可能出现的超大陆,这派学说和另一派终极盘古大陆不同的是,阿美西亚大陆是亚洲和北美洲合并形成。阿美西亚大陆的理论基础是在于太平洋板块隐没于
- 火鸡野生火鸡 Meleagris gallopavo 眼斑火鸡 Meleagris ocellata火鸡(英语:turkey),又名七面鸟或吐绶鸡,是一种原产于北美洲的家禽。火鸡体型比一般鸡大,可达10公斤以上。根据传统,美国
- 萨延बाप तहसील घंटियाली 城镇萨延(Sayan),是印度古吉拉特邦Surat县的一个城镇。总人口12856(2001年)。该地2001年总人口12856人,其中男性7258人,女性5598人;0—6岁人口
- 北宁市北宁市可以指:
- 冠状动脉旁路移植冠状动脉旁路移植(英语:Coronary artery bypass graft,常缩写为CABG)或心脏绕道手术,俗称冠脉搭桥或搭桥,即冠状动脉旁路移植术,是一项缓解心绞痛和减少冠心病死亡风险的手术。搭桥
- 达雷尔·伊萨达雷尔·伊萨(Darrell Issa;1953年11月1日-)是美国的一位政治人物。2013年至2019年间,他是加利福尼亚州第49选举区选出的美国众议院议员。他的党籍是共和党。伊萨曾经是一位商人
- 阿尔伯特·沙宾阿尔伯特·布鲁斯·沙宾(英语:Albert Bruce Sabin,1906年8月26日-1993年3月3日,原姓Saperstein)犹太裔美国人、医学家、美国陆军退役中校,是口服脊髓灰质炎疫苗(小儿麻痹疫苗,又称“
