首页 >
潜在语义索引
✍ dations ◷ 2025-04-25 01:17:21 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。
比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。
需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。
相关
- 兴奋剂兴奋剂又称为中枢神经兴奋剂、中枢神经刺激剂(英文名称:stimulant、psycho-stimulant)是一系列精神药物的统称,其中包括可以增加活动力的药物、会令人感到愉快和振奋的药物,以及
- 附睾炎附睾炎(英语:epididymitis)表现为阴囊部位突然性疼痛,触痛明显等,附睾炎可影响精子的发育程度,使精子受精能力降低,也有可能造成不孕。附睾炎主要发生在中青年时期,是男性疾病中的一
- 圣皮埃尔和密克隆圣皮埃尔和密克隆(法语:Saint-Pierre-et-Miquelon),位于北大西洋上,其中最主要的岛屿是圣皮埃尔岛和密克隆岛(法语:Miquelon)(Miquelon)等。该群岛的几个主要岛屿中,圣皮埃尔岛面积约26
- 诺曼底王朝本条目是分类中的文章诺曼底王朝(1066年-1135年;英语:House of Normandy)是英格兰的一个王朝,共有四位诺曼底家族的国王先后统治英格兰,统治时间由征服王威廉之后的1066年开始,直至
- 苗勒管发育不全苗勒管发育不全(Müllerian agenesis, Mayer-Rokitansky-Küster-Hauser syndrome or MRKH),取名于奥格斯特·佛列斯·杰斯佛·卡尔·苗勒(英语:August Franz Joseph Karl Mayer)
- 白种人高加索人种(英语:Caucasian race, Caucasoid),或称欧罗巴人种,是在欧洲、北非、非洲之角、西亚、中亚、南亚、北美、南美和大洋洲的人口中常见的人种。这个术语在体质人类学中用
- 外类群外群,或称外类群,是一个分支系统学概念,指与所有近缘单系群(两个及以上)关系都较远的类群,这意味着该群在演化过程中从母群分支出去的时间要早于其他群。下面举出一些例子,其外类群
- 贯叶连翘贯叶连翘(学名:Hypericum perforatum), 又名贯叶金丝桃、圣约翰草(St John's wort),金丝桃科金丝桃属植物,是欧美的常用草药,主要用于妇女调经,亦有宁神、平衡情绪的作用,临床上发现对
- 上莱茵省上莱茵省(Haut-Rhin;Owerèlsass)是法国的第68省。上莱茵省是法国大革命期间,根据1789年12月22日的法律和1790年1月8日的条例,于1790年3月4日建立的。它北与下莱茵省,西与孚日省,以
- 坦噶尼喀坦噶尼喀(斯瓦希里语:Tanganyika)是非洲东部国家坦桑尼亚的两个组成部分之一,另一部分是桑给巴尔。原为坦桑尼亚的大陆部分,位于东非,濒印度洋。境内有非洲最大的三个湖泊:维多利亚