潜在语义索引

✍ dations ◷ 2025-02-23 17:08:47 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。 比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。 其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。 需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。

相关

  • 淋球菌/淋菌淋球菌(学名:Neisseria gonorrhoeae,奈瑟氏球菌)又称淋病双球菌(“淋”,拼音:lìn)、淋病奈瑟菌,是导致淋病的病原菌,和脑膜炎奈瑟菌同属于奈瑟菌属,是革兰氏阴性菌一个属种。球菌是需
  • 聚合酶链锁反应聚合酶链式反应(英文:Polymerase chain reaction,缩写:PCR,又称多聚酶链式反应),是一项利用DNA双链复制的原理,在生物体外复制特定DNA片段的核酸合成技术。通过这一技术,可在短时间内
  • 曼吉斯套州曼格斯套州(哈萨克语:Маңғыстау облысы)是哈萨克斯坦的一个州份,西临里海,东邻乌兹别克,南邻土库曼。面积165,600平方公里。人口373,400(2006年资料)。首府阿克套。1
  • 平民保育团平民保育团(Civilian Conservation Corps,CCC)是美国在1933年至1942年间,对19至24岁的单身救济户失业男性推行的以工代赈计划,这些救济户都是在经济大萧条期间失业、难以找到工作
  • 心理卫生心理健康(Mental health)也称为精神卫生,是指心理幸福安宁的状态,或指没有精神疾病的状态。是指“一个情绪及行为调整都运作相当良好的人,当时的心理状态”。若以正面心理学或是
  • 晚期智人晚期智人(学名:Homo sapiens sapiens),又称“解剖学意义上的现代人(英语:Anatomically modern humans)”,是人类演化的一个阶段。晚期智人在体质特征上和现代人已没有明显差异。但现
  • 葡糖醛酸代谢葡糖醛酸(Glucuronic acid),又称葡萄糖醛酸,是葡萄糖的 C-6 羟基被氧化为羧基形成的糖醛酸。D-葡糖醛酸一般不以游离的形式存在,因为该形式不稳定,而是以更稳定的呋喃环的 3,6-内
  • 动吻动物门动吻动物门(学名:Kinorhyncha)是动物界的一个门。是一类生活在沿海底部泥沙中的、体表分节带(zonites)、无纤毛的假体腔动物。约有100种左右,例如动吻虫(Echinoderes)等。它们的近亲
  • 生物群系生物群系(英语:Biome)又称生物区系。由诸如植物集群、动物集群和土壤生物(英语:Soil biology)集群的各种生物群落组成,是生态学上气候条件相似并按照气候和地理划分的区域。因常以
  • 皇家学会伦敦王家自然知识促进学会(英语:Royal Society of London for Improving Natural Knowledge),简称“王家学会”(Royal Society),但多译作“皇家学会”,是英国资助科学发展的组织,成立