首页 >
停用词
✍ dations ◷ 2025-08-08 05:18:55 #停用词
在信息检索中,为节省存储空间和提高搜索效率,在自然语言处理数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。不要把停用词与安全口令混淆。
这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如'the'、'is'、'at'、'which'、'on'等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像The Who、The The或Take That等复合名词时,停用词的使用就会导致问题。另一类词包括词汇词,比如'want'等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。Hans Peter Luhn, 作为信息检索的先驱者之一,他创造了这个短语并在他的研究中应用这个概念,为信息检索工作做出了贡献。
相关
- 莫斯科莫斯科(俄语:Москва,罗马化:Moskva,IPA:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000",
- 数有的语言中,名词、代词、形容词、动词有数的范畴。大部分区分数的语言中,一般只有单数和复数,而一些语言中亦有双数(例如阿拉伯语和古希腊语等)、三数(例如多罗马科语)、微数(Paucal
- 人类演化历程人类演化历程记录了人及其祖先在发展与演化过程中的重要事件,还包括对可能是人类祖先的物种的简要介绍。但其中并不包含生命起源的内容,只是描述从生命诞生直至演化为人类的可
- 动植物生物系统层级关系:生物圈 > 生态系统 > 群落 > 种群 > 个体生物 (拉丁语,德语: Organismus, 英语:Organism,又称有机体)是指称类生命的个体。在生物学和生态学中, 地球上约有870万种
- 埃维林省伊夫林省(法语:Yvelines,法语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gentium"
- 维和维持和平(英语:Peacekeeping)的活动,旨在创造有利于维持持久和平的条件。经研究发现,维和能减少战场上平民的死亡,并降低再次引发战争的风险。
- 勒内·科蒂勒内·朱尔·古斯塔夫·科蒂(René Jules Gustave Coty) (法语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sa
- 法式千层酥法式千层酥(法语:mille-feuille,又称拿破仑酥、拿破仑蛋糕)是一种法国起源的蛋浆甜品。传统上,法式千层酥是由三层酥皮夹两层奶油,但有时也用果酱。顶部通常是交替的白色(糖制成)和
- 康沃尔语康沃尔语(Kernowek)是属于凯尔特语族中,包括威尔士语、布列塔尼语、已灭亡的坎伯兰语、及假定曾存在的伊佛尼克语的布立吞亚支。而苏格兰盖尔语、爱尔兰语、及曼岛语则是属于另
- 格波格波(lattice wave)是原子热振动的一种描述。从整体上看,处于格点上的原子的热振动可描述成类似于机械波传播的结果,这种波称为格波,即晶格的振动模。晶格具有周期性,因此晶格的振