首页 >
潜在语义索引
✍ dations ◷ 2024-11-05 18:32:09 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。
比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。
需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。
相关
- 光合作用光合作用是植物、藻类等生产者和某些细菌,利用光能把二氧化碳、水或硫化氢变成碳水化合物的过程。可分为产氧光合作用和不产氧光合作用。植物之所以称为食物链的生产者,是因为
- 哥特式建筑哥特式建筑(法语:Architecture gothique, 英语:Gothic architecture),或译作歌德式建筑,是一种兴盛于欧洲中世纪高峰与末期的建筑风格。它是由罗马式建筑发展而来,为文艺复兴建筑所
- XX染色体(X chromosome)是部分动物决定性别的染色体之一。它出现在X0和XY性别决定系统中。对一般人类来说,女性有两条X染色体,男性X、Y染色体各有一条。在人类约20000至25000个基
- 呼吸性碱中毒呼吸性碱中毒是一种因为呼吸频率增加而导致血液pH值上升的身体状况。是酸碱平衡失调的四大分类中其中一类。呼吸性碱中毒的病因主要是过度换气。过度换气时,二氧化碳被大量排
- 司坦唑醇康力龙也称司坦唑醇(Stanozolol),雄激素类药物。白色粉末状无臭。几乎不溶于水,能溶于油脂。用于慢性消耗性疾病、纠正重症术后消瘦负氮平衡、男性性腺功能减退、骨质疏松症、小
- 布朗芬布伦纳尤里·布朗芬布伦纳(英语:Urie Bronfenbrenner,1917年4月29日-2005年9月25日)美国著名的心理学家, 他的生态系统理论为人所熟悉。 他也是Head Start项目的创始人之一,这个项目研究
- 罗马奥林匹克体育场罗马奥林匹克体育场(Stadio Olimpico di Roma,又名奥林匹高球场)是意大利罗马市最主要的体育场,也是意甲俱乐部罗马和拉齐奥的共用主场球场。罗马奥林匹克体育场为了一九六零年
- 坚果坚果是植物的一类果实,通常用来泛指果皮坚硬的干果类,依植物学的定义,坚果是指由坚硬的果皮和种子组成的果实,且在果实成熟时果皮不开裂(闭果)。但在日常的定义下,只要有坚硬外壳、
- 埃芬汉县埃芬汉县(Effingham County, Georgia)是美国乔治亚州东部的一个县,东邻南卡罗莱纳州。面积1,250平方公里。根据美国2000年人口普查,共有人口37,535人。县治春田市 (Springfield)
- 470110 数学 120 信息科学与系统科学 130 力学 140 物理学 150 化学 160 天文学 170 地球科学 180 生物学210 农学 220 林学 230 畜牧、兽医科学 240 水产学310