自动标引

✍ dations ◷ 2025-05-17 13:50:18 #图书资讯科学,信息检索,计算机科学,计算语言学,数据挖掘,中文信息检索

自动标引(英语:Automatic Indexing)包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动提取在文本挖掘域被称为关键词抽取(英语:Keyword Extraction),在计算语言学领域通常着眼于术语自动识别(英语:Automatic Term Recognition),在讯息检索领域,就是指自动标引。自动标引属于文本讯息抽取的范畴。文本讯息抽取是从文本数据中抽取人们关注的特定的讯息。

由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动标引、自动文摘、自动分类、自动聚类、相关反馈、自动过滤、事件检测与跟踪、知识挖掘、信息可视化、概念检索、检索提示、关联知识分析、自动问答等,都必须先进行关键词提取的动作,再进行其他的处理。可以说,关键词提取是所有文件自动处理的基础与核心技术。目前大多文档都不具有关键词,同时手工标引费力费时且主观性较强, 因此关键词自动标引是一项值得研究的技术。

自动标引研究可以分为三个阶段:从Luhn于1957年开始进行自动标引后开始,到目前为止,自动标引研究经历了50年的发展历程。一直到20世纪90年代初,关于关键词自动提取的研究一直就没有停止过。 20世纪90年代初到90年代末,自动标引研究渐渐冷却,原因主要包括:全文索引逐渐被人采用,并且基本上能满足用户需要;传统的自动标引方法的效率到了极限;网络兴起之初的冲击与信息需求环境的改变。20世纪90年代末一直到现在,关键词自动提取的研究逐渐升温,尤其是最近几年,关键词自动提取研究进行的如火如荼,产生该现象的主要原因为:全文索引的功能越来越难以满足实际需求,用户需要更加精确的结果;另外互联网的很多服务,例如自动摘要,文档分类与聚类,文本分析,主题检索等都要依赖于关键词自动提取的结果,只有这样才能有希望从根本上提高讯息服务品质。

根据见诸于报道的自动标引研究情况,结合自动标引研究领域的影响程度和自动标引方法的创新程度,归纳出1957~2007年五十年时间里比较有代表性的自动标引方法。

相关

  • 麻疹麻疹(拉丁语:Morbilli;德语:Masern;法语:Rougeole;英语:Measles 或 Rubeola;日语:はしか),是麻疹疫苗未出现前,一种好发在儿童身上的传染病,但成人也有一定机会感染。儿童常见的急性病毒是
  • 肿瘤标志物癌症标志物(英语:Cancer biomarkers)是指由肿瘤细胞直接产生或由非肿瘤细胞经肿瘤细胞诱导产生的物质。对于肿瘤标志物的检测可对肿瘤存在、发病过程及预后作出判断。癌症标志
  • 胸腔外科胸腔外科学或称心胸肺外科(英语:Cardiothoracic Surgery),是一门医学专科,专门研究胸腔内器官,包括心脏、肺、气道与呼吸系统、胸壁、纵隔、膈肌和食道等,以及这些器官与部位的诊断
  • 肾小球基底膜肾小球基底膜(glomerular basement membrane、(GBM))是肾脏肾小球的基底膜层。肾小球毛细血管内皮细胞,肾小球基底膜及滤过裂隙介于足细胞之间执行肾小球的超滤作用(hyperfiltr
  • 一级方程式一级方程式赛车(英语:Formula One,也叫Formula 1或者F1)是由国际汽车联盟举办的最高等级的赛车比赛。F1的正式名称为“国际汽车联合会世界一级方程式锦标赛”。名称中“方程式”
  • 宁完我宁完我(1593年-1665年),字公甫,谥文毅。辽阳(今属辽宁)人。清代汉军正红旗人,历官弘文院大学士、议政大臣、少傅兼太子太傅。敢言,好酒嗜赌、精通文史。早年依附努尔哈赤,隶汉军正红旗
  • 美国警察美国警察主要分为联邦、州、县、市、镇或村几级,美国联邦政府执法机构和各州的警察分别行使联邦和州所赋予的警察权力,州以下的警察的权力则由各州自行决定。除了联邦执法机构
  • ATC代码 (A15)A·B·C·D·G·H·QI·J·L·M·N·P·R·S·VATC代码A15(食欲刺激药)是解剖学治疗学及化学分类系统的一个药物分组,这是由世界卫生组织药物统计方法整合中心(The WHO Collabor
  • 阿佩普阿佩普(Apep),或译阿波菲斯(Apophis),为古埃及神话中的神,被认为是破坏、混沌、黑暗的化身,因此是拉(太阳神)和玛亚特(真理和正义女神)的死对头,祂常以巨蛇的形象出现在艺术作品中。
  • 德寿宫德寿宫是朝鲜王朝最后的宫殿,位于大韩民国首尔市,宫内有许多朝鲜早期的欧式建筑。德寿宫最早作为成宗之兄月山大君的宅邸而建。壬辰倭乱时,居住在这里的是月山大君的后代李琉、