首页 >
潜在语义索引
✍ dations ◷ 2025-11-24 21:31:49 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。
比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。
需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。
相关
- 抽烟吸食烟草(英语:Tobacco smoking,或称抽烟、吸烟,粤语作食烟,闽南语作食薰)是从燃烧烟草产品吸入烟草的致瘾化学物质尼古丁,特别是吸食香烟、吸食雪茄、使用烟斗等行为,香烟的主要成
- 音位音位(英语:Phoneme),又译音素,是人类语言中能够区别意义的最小声音单位,是音位学分析的基础概念。一个字或词可由一至数个音节组成,一个音节可由一至数个“音段”(元音、辅音等)组成
- 四样植物住棚节四样植物 (希伯来语:.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","Keter Aram Tsova",
- 监护宣告行为能力(capacity)为一种法律上的概念,其与“权利能力”及“意思能力”不同,乃指为法律行为之资格,亦即个人以独自的意思表示,使其行为发生法律上效果的资格而言。民法中基于私法
- 雷蒙德·卡特尔雷蒙德·伯纳德·卡特尔 (Raymond Bernard Cattell,1905年3月20日-1998年2月2日),是一名英国和美国心理学家,创立晶体智力和流体智力理论解释人类认知能力。在卡特尔92年的人生中,
- 巯嘌呤巯嘌呤(英语:Mercaptopurine,简称6-MP,又名6-巯基嘌呤、巯基嘌呤或巯唑嘌呤)是一种硫嘌呤类化疗药物和免疫抑制剂。1951年,格特鲁德·B·埃利恩和乔治·H·希钦斯用干酪乳杆菌试验
- 被子植物花发育被子植物花发育的ABC模型由E. Coen和E. Meyerowitz在1991年提出。这个模型是以对花器官发育有缺陷的突变体的观察为基础的。ABC模型概括了在花的不同部位中,不同类型的转录因
- 代谢率基础代谢率(英语:basal metabolic rate,首字母缩写BMR)是指在自然温度环境中,恒温动物(比如人)的身体在非剧烈活动的状态下,处于非消化状态,维持生命所需消耗的最低能量。这些能量主
- 硫酸软骨素蛋白聚糖硫酸软骨蛋白多糖(英语:Chondroitin sulfate proteoglycan;CSPG)又称硫化软骨蛋白多糖。是硫酸软骨与蛋白多糖结合的产物,在脑部中调控神经系统的发育与生长,它能抑制神经纤维的再
- 尖孢镰刀菌尖孢镰刀菌(Fusarium oxysporum)是镰刀菌属的一种真菌。部分尖孢镰刀菌被用来制作纳米材料(尤其是纳米银颗粒)。尖孢镰刀菌古巴专化型(Fusarium oxysporum f.sp. cubense,又名香蕉
