首页 >
潜在语义索引
✍ dations ◷ 2025-09-14 06:33:40 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。
比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。
需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。
相关
- 超声检查超声波(英语:Ultrasound),是指任何声波或振动,其频率超过人类耳朵可以听到的最高阈值20kHz(千赫)。超声波由于其高频特性而被广泛应用于医学、工业、情报等众多领域。某些动物,如犬
- 丁酸丁酸,又称酪酸,是化学式为CH3CH2CH2-COOH的羧酸和短链饱和脂肪酸,存在于腐臭的黄油、帕马森干酪、呕吐物和腋臭中。丁酸带有难闻的气味,味先辣后甜,与乙醚类似。10ppb浓度的丁酸
- 睾丸酮睾酮(testosterone)(又称睾固酮、睾丸素、睾丸酮或睾甾酮、睾脂酮)是类固醇激素,由男性的睾丸或女性的卵巢分泌,肾上腺亦分泌少量睾酮。睾酮是主要的雌雄激素及蛋白同化甾类。不论
- 多肽肽(英语:peptide,来自希腊文的“消化”),旧称胜,即胜肽,又称缩氨酸,是天然存在的小生物分子,介于氨基酸和蛋白质之间的物质。由于氨基酸的分子最小,蛋白质最大,而它们则是氨基酸单体组
- 强的松17-hydroxy-17-(2-hydroxyacetyl)-10,13-dimethyl-7,8,9,10,12,13,14,15,16,17- decahydro-3泼尼松(英语:Prednisone),又名“去氢可的松”或“强的松”,它是一种口服的糖皮质激
- 明亚明亚(阿拉伯语:منيا)位于埃及中部,是明亚省的首府。
- 白消安白消安(英语:Busulfan,商品名马利兰、白舒非)是一种从1959年开始使用的抗癌药。它是一种细胞周期非特异性烷化剂,属于烷基磺酸酯类型,化学结构全称是1,4-丁二醇二甲烷磺酸酯。白消
- 四羰基铁酸二钠四羰基铁酸二钠是化合物,化学式为Na2。有机合成使用这种对氧敏感的试剂,主要是在合成醛中。常用二恶烷络合其中的钠离子,这种二恶烷溶液也被称为Collman试剂。四羰基铁酸根离子
- 民间音乐民间音乐,又称民俗音乐、民间歌谣,简称民歌、民谣、民乐,于国际民间音乐协会之解释定义为“经过口传过程发展起来的普罗大众音乐”,也就是该音乐散布过程,纯粹是由演奏者或音乐接
- INSEE编码INSEE编码是由法国的国家统计机构法国国家统计与经济研究所(法语:Institut National de la Statistique et des Études Économiques,缩写为INSEE)制定的一种编码,与统计数据有