首页 >
潜在语义索引
✍ dations ◷ 2025-11-20 16:40:46 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。
比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。
需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。
相关
- 肝糖糖原(英语:glycogen,又称肝糖、动物淀粉)是人类等动物和真菌储存糖类的主要形式;是多糖的一种,由葡萄糖失水(脱水)缩合作用而成。主要生物学功能是作为动物和真菌的能量储存物质。
- RTA 1远端肾小管性酸中毒(Distal renal tubular acidosis、dRTA、或"1型肾小管酸中毒"(RTA 1))是RTA的传统形式,为RTA第一个描述的病症。远端RTA的特征在于远端肾单位的集合管系统
- 西墙西墙,又名哭墙(希伯来语:הַכֹּתֶל הַמַּעֲרָבִי,HaKotel HaMa'aravi),阿拉伯人称之为布拉克墙(阿拉伯语:حائط البراق,Ḥā'iṭ Al-Burāq)位于耶路
- 孟加拉语孟加拉语(bāṅlā / বাংলা 或者 bāṅālī / বাঙালী)又称为孟加拉文,属于印欧语系印度-伊朗语族的印度-雅利安语支,是孟加拉国和印度西孟加拉邦和特里普拉邦的官方
- 准确性准确度(英语:accuracy)与精密度(英语:precision)是科学、工程学、工业及统计学等范畴的重要概念。准确度是每一次独立的测量之间,其平均值与已知的数据真值之间的差距(与理论值相符
- 实验科学实验(德语、英语、瑞典语、荷兰语: Experiment),区别于试验,实验是在科学研究中,在设定的条件下,用来检验某种假设,或者验证或质疑某种已经存在的理论而进行的操作。科学实验是可以
- 亚平宁山脉亚平宁山脉(意大利语:Appennini),位于亚平宁半岛东侧,是亚平宁半岛的主干山脉,北起阿尔卑斯山南麓,南至亚平宁半岛南端,全长超过1000公里。全境属意大利管辖。多悬崖峭壁的断层式海
- 二重证据法1925年,由王国维提倡,“吾辈生于今日,幸于纸上之材料外,更得地下之新材料。由此种材料,我辈固得据以补正纸上之材料,亦得证明古书之某部分全为实录,即百家不雅训之言亦不无表示一面
- 罗伯特·G·爱德华兹罗伯特·杰弗里·爱德华兹爵士,CBE,FRS(英语:Sir Robert Geoffrey Edwards,1925年9月27日-2013年4月10日),英国生理学家,生殖医学的先驱者,因“开发体外受精技术”的成就被授予2010年
- 亚磺酸亚磺酸是一类亚磺酸基(-SO2H)与烃基(-R)相连而成的化合物的统称。通式 RSO2H。可用作有机合成及电镀添加剂,也可作氧化还原聚合反应的催化剂。一般为油状液体或结晶。低级亚磺酸
