首页 >
潜在语义索引
✍ dations ◷ 2025-11-23 20:11:58 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。
比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。
需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。
相关
- 内科人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学内科学是临床医学的专科,几乎是所有其
- 小说家小说作家,通常又略作小说家,指写作小说的人。在古代中国,尤其在春秋战国时代,小说家为诸子百家中的其中一家,《汉书.艺文志》曰:“小说家者流,盖出于稗官;街谈巷语,道听途说者之所造也
- 血液血液(英语:blood)是在动物的循环系统、心脏和血管腔内循环流动的一种组织,可以将氧气及营养素送到各器官,并将细胞的代谢废弃物带离细胞。血液组织是结缔组织的一种,由血浆和血细
- 生命演化史生命演化历程纪录地球上生命发展过程中的主要事件。本条目中的时间表,是以科学证据为基础所做的估算。生物演化指生物的族群从一个世代到另一个世代之间,获得并传递新性状的过
- 核电存废问题核电存废问题是人类社会对核能发电使用的持续的争议性讨论。第一个成功的核裂变实验装置在1938年的柏林被德国科学家奥托·哈恩、莉泽·迈特纳和弗瑞兹·斯特拉斯曼制成。在
- Tl4f14 5d10 6s2 6p12, 8, 18, 32, 18, 3蒸气压第一:589.4 kJ·mol−1 第二:1971 kJ·mol−1 第三:2878 kJ·mol主条目:铊的同位素铊(拼音:tā,注音:ㄊㄚ,粤拼:taa1;英语:thallium)是化
- 詹姆斯·兰迪詹姆士·赖迪(英语:James Randi,出生时全名为Randall James Hamilton Zwinge,1928年8月7日-),美国藉加拿大裔舞台魔术师、科学怀疑论者,而且是其同名基金会,詹姆士· 赖迪教育基金会
- 迪卡尔布县迪卡尔布县(DeKalb County, Georgia)是美国乔治亚州北部的一个县。面积702平方公里。根据美国2000年人口普查,共有人口665,865人。县治第开特(Decatur)。成立于1822年12月9日。县
- 16号州际公路16号州际公路(Interstate 16,简称I-16),又名吉姆·吉利斯萨凡纳公园古道(Jim Gillis Historic Savannah Parkway),是美国州际公路系统,也是乔治亚州公路系统的一部分,全线位于乔治亚
- 单层柱状上皮单层柱状上皮与单层立方上皮类似,只不过细胞高度较高,且在与基底膜成直角的切面排列。细胞的高度由矮柱状至高柱状不等、乃决定于其所在的位置和/或功能活性的程度。细胞核为
