首页 >
潜在语义索引
✍ dations ◷ 2025-09-06 19:49:23 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。
比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。
需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。
相关
- 叠层石叠层石(英语:Stromatolite,或称层叠石,源自希腊文strōma与lithos)可定义为“从某一点或有限的表面开始增生,并聚集石化,形成逐渐增大的沉淀物生成构造”。自然界中有许多不同型态
- 螺旋菌螺旋菌(英语:Spiral bacteria)系按形态分出的一种细菌种类。其种类次于球菌、杆菌,在细菌家族中位列第三。。螺旋超过一周的螺旋菌被称为螺旋菌,而不满一周的则被称为弧菌。另外,
- rDNA核糖体DNA(Ribosomal DNA,rDNA)是一种DNA序列,该序列用于rRNA编码。核糖体是蛋白质和rRNA分子的组合,翻译mRNA分子以产生蛋白质的组件。如该图所示,真核生物的rDNA包括一个单元段,
- 枸橼酸钠柠檬酸钠(sodium citrate),又称枸橼酸钠,是一种有机酸钠盐。外观为白色到无色晶体,有肥皂水的味道。柠檬酸钠可由柠檬酸和氢氧化钠酸碱中和或与碳酸钠或碳酸氢钠发生复分解反应而
- 葡萄胎葡萄胎也称水泡状胎、水泡状胎块(Hydatidiform Mole) 是一种异常的人类妊娠,系由着床但未成功发育的受精卵所造成。因其特征为胎盘绒毛间质水肿,形成透明或半透明的薄壁水泡,形似
- O-16氧-16,为氧的一个稳定同位素,拥有8个质子和8个中子,在氧化态为0时有8个电子,氧-16的丰度约为99.76%,约占地壳含量的48.5%。氧-16,可于约摄氏两亿度的3氦过程后形成碳-12后再撞击一
- 感受态细胞活化(Competence)又称为感受态,是一个在微生物学、遗传学、分子生物学和细胞生物学里很常见的名词,用来指一种能令细胞有能力从细胞以外的环境接纳DNA的方法。无论是在自然条件
- 吡咯赖胺酸吡咯赖氨酸(Pyrrolysine;简称:Pyl 或 O)是一种自然存在而少见的编码氨基酸,其编码为UAG(琥珀),该密码子通常为终止密码子。这是人们到目前为止发现的第22种,也是最后一种编码氨基酸(第
- 硫酸钴硫酸钴,化学式CoSO4,常为七水合物(CoSO4·7H2O)的形式。七水物为桃红色单斜结晶,溶于水和甲醇,微溶于乙醇,不溶于氨。在空气中易风化。加热至420°C时失去七个结晶水。硫酸钴很少以
- 阿列日省阿列日省(法文:Ariège)是法国朗格多克-鲁西永-南部-比利牛斯大区所辖的省份。该省编号为09。5个海外省及大区