潜在语义索引

✍ dations ◷ 2025-11-28 08:25:48 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。 比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。 其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。 需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。

相关

  • 肌萎缩性脊髓侧索硬化症肌萎缩性脊髓侧索硬化症(英语:Amyotrophic lateral sclerosis,缩写为 ALS),也称为肌萎缩侧索硬化症,有时也称为卢·贾里格症(英语:Lou Gehrig's disease)、渐冻人症、运动神经元病,是
  • paracetamol7.21 g/kg (0 °C) 8.21 g/kg (5 °C) 9.44 g/kg (10 °C) 10.97 g/kg (15 °C) 12.78 g/kg (20 °C) ~14 mg/mL (20 °C)对乙酰氨基酚(英语:Acetaminophen),又称
  • 橡胶橡胶是一种有弹性的聚合物。橡胶可以从一些植物的树汁中取得,也可以是人造的,两者皆有相当多的应用及产品,例如轮胎、垫圈等,遂成为重要经济作物。橡胶的种植主要集中在东南亚地
  • 诱发性肺量计诱发性肺活量计 ( incentive spirometer ) 是一种医疗设备,用于任何可能危害呼吸功能手术的患者,特别是肺部手术,帮助病人改善他们的肺部功能,预防及改善肺塌陷。 ,但也适用于心
  • 咂阳右|无框 咂阳(英语:fellatio、fellation、俗称:blowjob、giving head、sucking off),或称“吮阳”,俗称吹箫,是口交的其中一种形式,当中从事者的口部或喉咙会跟一名男性或自己的阴茎
  • 苯丙酸苯丙酸(英语:Phenylpropanoic acid或 hydrocinnamic acid)是一种分子式为C9H10O2的带芳香基团的羧酸,属于苯丙素类,是一种白色晶体,带有甜味,常温下有花香,在化妆品、食品和制药上有
  • 乳状体乳状体(Mammillary body)是下丘脑中被灰色物质覆盖着的一对白色乳突,跟其他大脑结构组成边缘系统。 它们由两组核组成,即内侧乳核和外侧乳核。神经解剖学通常将乳状体归入下丘脑
  • 植原体"Ca. Phytoplasma allocasuarinae" "Ca. Phytoplasma americanum" "Ca. Phytoplasma asteris" "Ca. Phytoplasma aurantifolia" "Ca. Phytoplasma australiense" "Ca.
  • 法式炖蛋法式炖蛋(法语:Crème brûlée、国际音标:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000",
  • 前导链DNA复制是指DNA双链在细胞分裂分裂间期进行的以一个亲代DNA分子为模板合成子代DNA链的过程。复制的结果是一条双链变成两条一样的双链(如果复制过程正常的话),每条双链都与原来