首页 >
撷取
✍ dations ◷ 2025-08-07 11:38:06 #撷取
信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。信息抽取的一个广泛目标是允许对以往非结构化的数据去做计算,具体来说就是要允许逻辑推理能对输入数据的逻辑内容可以举一反三。其意义在于决定了例如在互联网上其非结构化(例:不包含元数据)形式中有用信息数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可访问性──一个智能代理程序,监督一新闻数据馈流,需要信息截取技术来转换非结构化数据到某种可推论的方式。信息检索技术又称为“消息理解”(Message Understanding(英语:Message Understanding)),其主流研究起源于1987年消息理解会议(英语:Message Understanding Conference)(Message Understanding Conference(英语:Message Understanding Conference), MUC(英语:MUC)),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC(英语:Message Understanding Conference)已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。信息抽取的基本任务包含了:在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。《图书信息检索技术》卜小蝶著:文华,台北市,民85
相关
- 阴囊阴囊(英语:scrotum)是在一些雄性哺乳动物的生殖系统中,位在阴茎下方,阴茎和肛门之间的位置,外有皮肤和平滑肌包覆、内含睾丸(被分隔在两腔室)的囊状物。一般而言会有一颗睾丸比较低,
- 教育可视化可视化是指用于创建图形、图像或动画,以便交流沟通讯息的任何技术和方法。在历史上包括洞穴壁画、埃及象形文字等,如今可视化有不断扩大的应用领域,如科学教育、工程、互动多媒
- 宗教理论神学(古希腊语:Θεολογια,拉丁语:theologia,英语:Theology)一词,广泛指称所有对神(上帝)这个主题展开的研究或学说。神学一词的希腊文Θεολογια是由Θεος(即“神”)和
- 威塞克斯王国威塞克斯王国(古英语:Westseaxna rīce),意为“西撒克逊人的王国”,是盎格鲁-撒克逊人的王国。其立国时间是519年左右,开国者据说是率族人登陆英格兰汉普郡沿海地带的彻迪克。到了
- 康复力聚合草(学名:Symphytum officinale)为紫草科聚合草属的植物。分布在俄罗斯以及中国大陆的 福建省、 四川省、 中国、 湖北省、江苏省等地,目前已由人工引种栽培。花语为“寂静”
- 性偏好性嗜好,或称性偏好、性癖好,是指个人对性对象、性行为的偏好。它是个体化的,以各人的内心喜好为标准 ,其因人而异且千差万别。特定的对象对个体产生强烈的性吸引,个体对特定的性
- 葡萄牙葡萄牙国家图书馆(Biblioteca Nacional de Portugal)是葡萄牙的法定送存国家图书馆,位于该国首都里斯本。1796年创立时称为“Real Biblioteca Pública da Corte”,位于希亚多区
- 淋巴器官淋巴结(lymph node)是淋巴系统的一部分(以往亦称做淋巴腺,但其并没有分泌物质的功能,故称为“腺”并不对),作用类似过滤器,内部蜂窝状的结构聚集了淋巴球,能够将病毒与细菌摧毁,当身体
- 内细胞团内细胞团(英语:Inner cell mass,缩写:ICM、内细胞群)是大多数真兽类哺乳动物在胚胎发生中的一个早期阶段,又称胚细胞(embryoblast)。是一团位于初期胚胎中的一个细胞团块,也是最后将
- 世界大战世界大战,指涉及到世界上大多数强大和人口庞大国家、规模最大的战争。世界大战可横跨几个大洲,并持续多年。这个用词通常应用于20世纪二个规模空前的全球冲突:第一次世界大战(19