潜在语义索引

✍ dations ◷ 2025-12-04 02:47:10 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。 比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。 其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。 需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。

相关

  • 翻译翻译(英语:Translation),是蛋白质生物合成(基因表达中的一部分,基因表达还包括转录)过程中的第一步。翻译是根据遗传密码的中心法则,将成熟的信使RNA分子(由DNA通过转录而生成)中“碱
  • 恩前列素恩前列素是一种合成的类地诺前列酮前列腺素,它可以用来作胃部HCl分泌的强效抑制剂。 因而常被用来作抗酸或溃疡药。它的药理作用基本与米索前列醇相同。医学导航:遗传代谢缺陷
  • 辣薄荷M. piperita (L.) Huds. M. balsamea Willd.辣薄荷(学名:Mentha × piperita,又名胡椒薄荷,英语:Peppermint)唇形科年生草本植物,是一种被广泛种植的混种薄荷,原产于欧洲,可用于食物
  • 锂盐类药物锂盐(英语:Lithium salts)为含锂离子的离子化合物,临床上通常指碳酸锂。锂盐在医学上可作为一种精神科药物,用于躁郁症与其他抗忧郁药治疗无效的重性抑郁障碍。锂能够降低这些疾
  • 爱尔兰皇家外科医学院爱尔兰皇家外科医学院,英文名Royal College of Surgeons in Ireland,简称RCSI。成立于1784年,是所私立医学院。爱尔兰皇家外科医学院位于爱尔兰的都柏林市。由于爱尔兰共和国曾
  • 脂加氧酶结构 / ECOD1y4kA:155-823 2sblB:155-823 1fgoA:155-823 1fgmA:155-823 1yge :155-823 1fgtA:155-823 1f8nA:155-823 1fgqA:155-823 1fgrA:155-823 1rrhA:173-8
  • 触-压觉触-压觉是触觉和压觉的统称。它们是皮肤受到触或压等机械刺激时所引起的感觉。两者在性质上类似。触点和压点在皮肤表面的分布密度以及大脑皮层对应的感受区域面积与该部位
  • 莱尼蕨门莱尼蕨(学名:Rhynia),又名雷尼蕨、赖尼蕨,是一属已灭绝的原始陆生维管植物,是在约四亿年前的泥盆纪地层中所发现的一种化石蕨类。科学家认为它们是原始的蕨类,只有茎,而没有根与叶,高
  • 阿克塞尔理查德·阿克塞尔(英语:Richard Axel,1946年7月2日-),美国医学科学家。他由于在嗅觉方面的卓越研究与琳达·巴克一起获得2004年诺贝尔生理学或医学奖。阿克赛尔出生于美国纽约州的
  • 桑塔利语桑塔利语(ᱥᱟᱱᱛᱟᱲᱤ)流行于印度的比哈尔邦、阿萨姆邦、特里普拉邦、恰尔康得邦、西孟加拉邦、奥里萨邦和孟加拉国、尼泊尔等国家和地区,属于南亚语系的蒙达语族。