潜在语义索引

✍ dations ◷ 2025-11-19 03:43:27 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。 比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。 其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。 需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。

相关

  • 简单疱疹病毒Herpes simplex virus 1 (HSV-1) Herpes simplex virus 2 (HSV-2)单纯疱疹病毒(英语:herpes simplex virus; HSV) 1 和 2 (HSV-1 和 HSV-2),也叫人类单纯疱疹病毒 1 和 2 (HHV
  • 吸附系统吸附是指某种气体,液体或者被溶解的固体的原子,离子或者分子附着在某表面上。这一过程使得表面上产生由吸附物构成的膜。吸附不同于吸收,吸收是指作为吸附物的液体浸入或者溶解
  • 危地马拉市危地马拉城(西班牙语:Ciudad de Guatemala)是危地马拉的首都和第一大城市、危地马拉省首府,同时也是中美洲第一大城市。人口根据不同的估算方式,在200万至350万人之间。位于危地
  • 犹大·哈-纳西犹大·哈-纳西(希伯来语:.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","Keter Aram Tsova","T
  • 医疗保健人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学医疗卫生,又称健康照护(英语:Health care
  • 糖原分解糖原分解是指由糖原分解成为葡萄糖-1-磷酸(G-1-P)及葡萄糖的过程,即糖原支链的异化作用。此反应的化学实质是链最末端的葡萄糖残基被磷酸化,进而以单体葡萄糖形式脱离糖原链。在
  • 内颈动脉内颈动脉(internal carotid artery)位于头颈部两侧。总颈动脉在甲状软骨上缘水平(C3或C4)会分支为外颈动脉及内颈动脉。内颈动脉会经由颈动脉管(英语:Carotid canal)近入颅腔,供应大
  • 场致发射电子场致发射,简称场发(Field electron emission,field emission (FE))理论最早是在1928年由拉尔夫·福勒与罗特哈·诺德海姆(英语:Lothar Nordheim)共同提出,其原理当在两导电体间
  • 电位差电压(英语:Voltage,electric tension 或 electric pressure),也称作电势差、电位差(electrical potential difference),是衡量单位电荷在静电场中由于电势不同所产生的能量差的物理
  • 宗庙宗庙是汉字文化圈国家君主、贵族供奉祖先灵位的祠庙。“宗,尊也;庙,貌也,先祖形貌所在也”之说。宗庙在中国夏朝时称为“世室”,殷商时称为“重屋”。明清时期宗庙被称为太庙。位