自动标引

✍ dations ◷ 2025-06-07 02:28:12 #图书资讯科学,信息检索,计算机科学,计算语言学,数据挖掘,中文信息检索

自动标引(英语:Automatic Indexing)包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动提取在文本挖掘域被称为关键词抽取(英语:Keyword Extraction),在计算语言学领域通常着眼于术语自动识别(英语:Automatic Term Recognition),在讯息检索领域,就是指自动标引。自动标引属于文本讯息抽取的范畴。文本讯息抽取是从文本数据中抽取人们关注的特定的讯息。

由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动标引、自动文摘、自动分类、自动聚类、相关反馈、自动过滤、事件检测与跟踪、知识挖掘、信息可视化、概念检索、检索提示、关联知识分析、自动问答等,都必须先进行关键词提取的动作,再进行其他的处理。可以说,关键词提取是所有文件自动处理的基础与核心技术。目前大多文档都不具有关键词,同时手工标引费力费时且主观性较强, 因此关键词自动标引是一项值得研究的技术。

自动标引研究可以分为三个阶段:从Luhn于1957年开始进行自动标引后开始,到目前为止,自动标引研究经历了50年的发展历程。一直到20世纪90年代初,关于关键词自动提取的研究一直就没有停止过。 20世纪90年代初到90年代末,自动标引研究渐渐冷却,原因主要包括:全文索引逐渐被人采用,并且基本上能满足用户需要;传统的自动标引方法的效率到了极限;网络兴起之初的冲击与信息需求环境的改变。20世纪90年代末一直到现在,关键词自动提取的研究逐渐升温,尤其是最近几年,关键词自动提取研究进行的如火如荼,产生该现象的主要原因为:全文索引的功能越来越难以满足实际需求,用户需要更加精确的结果;另外互联网的很多服务,例如自动摘要,文档分类与聚类,文本分析,主题检索等都要依赖于关键词自动提取的结果,只有这样才能有希望从根本上提高讯息服务品质。

根据见诸于报道的自动标引研究情况,结合自动标引研究领域的影响程度和自动标引方法的创新程度,归纳出1957~2007年五十年时间里比较有代表性的自动标引方法。

相关

  • 伏特伏特(英语:volt)是国际单位制中电压的单位,符号V。在一根均匀的、宽度和温度固定的导线上假如有一安培电流流动,那么导线的电阻在一定的距离内将电能转化为热能1瓦(W=1J/s)。这个距
  • 周期素周期蛋白(英语:Cyclin)是一个借由周期蛋白依赖性激酶调节细胞周期的蛋白质家族。简单来讲,细胞周期可以分为四个阶段:G0/G1、S、G2及M。G1和G2期是细胞生长期;S期是细胞将细胞核内
  • 廖一久廖一久(1936年11月4日-),台湾台中县人,出生于日本东京。台湾水产养殖学者,国立台湾海洋大学终身特聘教授,中央研究院院士。廖一久出生于东京,在台中丰原长大。童年时期,他喜欢坐在老
  • 心包腔心包,又名心膜,是一个圆锥形双层纤维浆膜囊,包裹心脏和出入心脏大血管根部。心包的两层分别为:心包的学名pericardium来自希腊语的περι(环绕、周围)与κάρδιον(心脏)两字
  • 圣克拉拉县圣克拉拉县(英语:County of Santa Clara),又译圣塔克拉拉县,是美国加利福尼亚州的一个县,位于旧金山湾区的南部,也是俗称硅谷的高科技产业集中地点的所在地。根据2010年美国人口普
  • 单轨铁路单轨铁路简称单轨,是铁路的一种,特点是使用的轨道只有一条,而非传统铁路的两条平衡路轨。单轨铁路的路轨一般以超高硬度混凝土制造,比普通钢轨宽很多。而单轨铁路的车辆比路轨更
  • 新巴生河流域大道新巴生河流域大道(也称新巴生谷大道,马来语:Lebuhraya Baru Lembah Klang,英语:New Klang Valley Expressway,简称:英语:NKVE,)位于马来西亚半岛巴生谷,是马来西亚最长的高速公路南北大
  • 中央大区中央-卢瓦尔河谷(法语:Centre-Val de Loire)是法国中部一个大区的名称。中部地区处在风景秀丽的卢瓦尔河谷地区,很久以前便是法国王室的直辖地,和法兰西岛一样是法语的发源地,有人
  • 各国武装部队列表这个列表列出了在役军人和预备役军人人数。它包括所有由政府为进一步推动各自的国内外政策所提供资金的士兵。此文中“国家”为其最常用的用法,即行使主权或有限认可的国家。
  • 犹太文化世俗的犹太文化包括若干相关现象,它是全世界犹太民族的一种世俗文化。根据摩西·门德尔松的理论,在19世纪早期,犹太人的国际群体就开始被视为一种民族宗教群体,而非只是一个宗教