潜在语义索引

✍ dations ◷ 2025-06-07 12:15:16 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。 比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。 其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。 需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。

相关

  • 厌氧菌厌氧生物,或称厌气生物,是指一种不需要氧气生长的生物。它们大致上可以分为三种,即专性厌氧生物、兼性厌氧生物及耐氧厌氧生物 。人体内的厌氧生物多存在于消化系统中,有些种类
  • 体重减轻减肥学(bariatrics)是医学的一个分支,目的在探讨肥胖症的起因、预防及治疗。一般简称为减肥、纤体、瘦身或秀身,是指采用人为手段故意降低体重,特别是减少体内的脂肪。减肥的原因
  • 艰难梭菌感染艰难梭菌感染(Clostridium difficile infection)是因为会形成芽孢的艰难梭菌造成的系统性感染。症状包括水状腹泻、发烧、恶心以及腹痛,约占抗生素相关的腹泻(英语:Antibiotic-as
  • 亚历山德罗·伏打电池 甲烷 伏特 电势物理学亚历山德罗·朱塞佩·安东尼奥·阿纳斯塔西奥·伏打(意大利语:Alessandro Giuseppe Antonio Anastasio Volta,1745年2月18日-1827年3月5日),意大利物理
  • 攀鲈亚目攀鲈亚目为辐鳍鱼纲攀鲈目的其中一个亚目。攀鲈亚目下分3科:
  • 星状病毒哺乳动物星状病毒属 禽星状病毒属星状病毒科(Astroviridae) 星状病毒科是一种感染哺乳类及鸟类的病毒,它的基因体是不分节,正股的RNA,它没有套膜且蛋白壳体为正20面体,星状病毒
  • 弋部,为汉字索引里为部首之一,康熙字典214个部首中的第五十六个(三划的则为第二十七个)。就繁体和简体中文中,弋部归于三划部首。弋部通常是从右上方为部字,且无其他部首可用者将
  • 阪泉之战阪泉之战是中国上古时期传说中的一场战争,由黄帝与炎帝对战,最终由黄帝击败炎帝。此传说见于《史记·五帝本纪》。《史记》相关记载如下:以与炎帝战于阪泉之野。三战,然后得其志
  • 宫本茂宫本茂(日语:宮本 茂/みやもと しげる Miyamoto Shigeru,1952年11月16日-),生于日本京都府,任天堂的王牌游戏设计师,曾任任天堂的情报开发本部(Entertainment Analysis and Developme
  • 科技预测科技预测是指人类对未来科技发展的估计与猜测。这些估计通常都是按当时的科技发展作出推算。然而,由于科技的发展进度难以作出准确的估计,因此很多时候都很难完全准确,有时更会