潜在语义索引

✍ dations ◷ 2025-11-15 00:43:54 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。 比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。 其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。 需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。

相关

  • 性腺功能低下症性腺功能低下症,又称性腺机能减退,是指生殖系统的缺陷,导致生殖腺(卵巢或睾丸)的缺乏功能。生殖腺有着两种功能,就是分泌激素(睾酮、雌二醇、抗苗勒氏管激素、黄体素、抑制素B)、激
  • 工团主义工团主义(英语:Syndicalism),又称工联主义,是一种以劳工运动为主导的社会主义,旨在工人阶级团结起来组织工会,通过纯粹的工人组织以及罢工来推翻资本主义和国家,以使企业由资本家主
  • 育亨宾育亨宾(英语:Yohimbine)是一种温和的单胺氧化酶抑制剂,并具有壮阳与兴奋剂功效。它作为治疗性功能障碍的医用处方药销售。育亨宾也是携带α2A肾上腺素受体基因多态性的人类与动
  • Tl4f14 5d10 6s2 6p12, 8, 18, 32, 18, 3蒸气压第一:589.4 kJ·mol−1 第二:1971 kJ·mol−1 第三:2878 kJ·mol主条目:铊的同位素铊(拼音:tā,注音:ㄊㄚ,粤拼:taa1;英语:thallium)是化
  • 丁氨苯丙酮安非他酮(国际非专利药品名称:Bupropion,旧名:amfebutamone) 或 盐酸安非他酮,商品名威博隽(Wellbutrin),是一种主要作为抗抑郁药和戒烟药使用的药物、也可用作治疗注意力不足过动症
  • 滴虫病滴虫性阴道炎(英语:trichomoniasis,trich)也称为滴虫炎,,是因为阴道毛滴虫(英语:Trichomonas vaginalis)所引起的传染病,会造成女性阴道或是男性尿道的发炎。约70%的女性及男性在罹病
  • 全世界第二大的外交网络法国驻外机构列表列出法兰西共和国派驻全球各地的驻外机构,法国拥有全世界第二大的外交网络,仅次于美国。最早开始派驻海外代表的是弗朗索瓦一世,他在1522年派了一个代表团前往
  • ρ因子ρ因子(ρ factor)是指在细胞遗传学当中,是一种参与转录终止的原核蛋白。ρ因子与转录终止子暂停位点结合,后者是缺乏明显二级结构的富含C/贫含G的序列的开放阅读框后的单链RNA(
  • 五刑五刑是中国古代五种刑罚之统称,在不同时期,五种刑罚的具体所指并不相同。在西汉文帝前,五刑指墨、劓、刖、宫、大辟;隋唐之后,五刑则指笞、杖、徒、流、死。五刑是对中国古代刑罚
  • 格罗宁根格罗宁根省(荷兰语:Groningen 荷兰语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","