停用词

✍ dations ◷ 2025-07-19 00:21:56 #停用词
在信息检索中,为节省存储空间和提高搜索效率,在自然语言处理数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。不要把停用词与安全口令混淆。 这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如'the'、'is'、'at'、'which'、'on'等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像The Who、The The或Take That等复合名词时,停用词的使用就会导致问题。另一类词包括词汇词,比如'want'等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。Hans Peter Luhn, 作为信息检索的先驱者之一,他创造了这个短语并在他的研究中应用这个概念,为信息检索工作做出了贡献。

相关

  • OrphanetOrphanet 是一个提供孤儿药物及罕见疾病信息的欧洲网站。该网站包含医生和病人等之信息。其行政办公室位于巴黎,其官方医学期刊(Medical journal)是由BioMed Central(英语:BioM
  • 灵长目灵长目(学名:Primates)是哺乳纲的一个目,在生物分类学上,可以再细分原猴及简鼻亚目(包括人)。灵长目的始祖住在热带雨林的树上,许多灵长目的特征表现了其适应三维立体环境的能力,大部
  • 热带热带,(英语:Tropics)的广义是指地球上南、北回归线(南、北纬23度26分)之间的地区的总称,但在气候方面一般会进一步区分出赤道热带和亚热带,无极昼极夜现象。热带有时从气候上定义,指
  • 棘皮动物棘皮动物门(学名:Echinodermata)是动物界的一门。这个门从寒武纪出现,总共有2万左右的种类,现生种约7000种。除现生5纲外,另有15纲之多,皆为海生动物,无陆生和淡水种类。常见的海胆
  • 全音素文字全音素文字(英语:alphabet)是表音文字的一种,它是以音素为单位的文字。和不标出元音的辅音音素文字不同,它的字母表中除了辅音字母,还有元音字母,用来表示语言中的元音。比较常见的
  • 安卡拉安卡拉(土耳其语:Ankara),是土耳其共和国的首都,位于小亚细亚安那托利亚高原的中北部,人口500万,也是土耳其全国仅次于伊斯坦布尔的第二大城市。安卡拉及其邻近地带的历史可以追溯
  • 肯尼斯·约瑟夫·阿罗肯尼斯·约瑟夫·阿罗(Kenneth Joseph Arrow,1921年8月23日-2017年2月21日),美国经济学家,1972年诺贝尔经济学奖得主。阿罗被认为是二战后新古典主义经济学的代表人物,对许多经济学
  • 居斯塔夫·埃菲尔亚历山大·古斯塔夫·埃菲尔(Alexandre Gustave Eiffel,1832年12月15日-1923年1月27日)祖先来自德国。他是一位法国工程师,金属结构专家,也是一位作家。出生于法国第戎,一开始他想
  • 摩尔曼斯克州摩尔曼斯克州(俄语:Му́рманская о́бласть,罗马化:Murmanskaya oblast),位于俄罗斯最西北部,是俄罗斯联邦主体之一,属西北部联邦管区。面积144,900平方公里,人口89
  • -反夏因-达尔加诺序列(英文:anti-Shine-Dalgarno sequence)是位于原核细胞核糖体小亚基16S rRNA3'端的段短核苷酸序列,可以按碱基互补配对原理与待翻译的信使RNA(messager RNA,简称