首页 >
潜在语义索引
✍ dations ◷ 2025-11-04 05:26:31 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。
比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。
需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。
相关
- 葡萄球菌属葡萄球菌(学名:Staphylococcus)是一群革兰氏染色阳性球菌,因常常堆聚成葡萄串状而得名。广泛分布于自然界及人和动物的皮肤及与外界相通的腔道中。大部分是不致病的腐生菌。医务
- 多囊性卵巢症候群多囊性卵巢综合症(Polycystic ovary syndrome,简称PCOS),又称斯-李二氏症(Stein-Leventhal syndrome),是一连串女性因为雄性激素上升所导致的症状。多囊性卵巢的症状包含月经不规律
- 前药前体药物(英语:prodrug),也称前药、药物前体、前驱药物等,是指经过生物体内转化后才具有药理作用的化合物。前体药物本身没有生物活性或活性很低,经过体内代谢后变为有活性的物质,
- Am5f7 7s22, 8, 18, 32, 25, 8, 2主条目:镅的同位素镅(Americium,台湾译作鋂)是一种放射性超铀元素,符号为Am,原子序为95。镅属于锕系元素,在元素周期表中位于镧系元素铕之下。镅是以
- 2012年中东呼吸综合征爆发2012年中东呼吸综合征爆发指2012年起于中东地区爆发的中东呼吸综合征(MERS)疫情。2012年,世界卫生组织表示正“忙于更进一步的描述这种新型冠状病毒”,并且“立即警告与此病毒相
- 长臂猿长臂猿科(学名:Hylobatidae),哺乳纲灵长目的一科,即小型猿类。传统分类法只包括长臂猿属一属,现今根据其遗传演化之间的时间,可分为四属,分别为:长臂猿属(44对)、白眉长臂猿属(38对)、黑
- 总督古罗马政府与政治 系列条目罗马共和国前509年–前27年 罗马帝国前27年–1453年元首制西罗马帝国君主制东罗马帝国王政时代宪政(英语:Constitution of the Roman Kingdom) 共和
- GeSsub2/sub二硫化锗,又称硫化锗(IV),是一种无机化合物,化学式为GeS2。它是一种高熔点的结晶固体 。这种化合物是一种三维聚合物,与一维聚合物的二硫化硅不同。锗与硫原子在二硫化锗中的距
- 浮士德《浮士德》(法语:Faust)为法国作曲家古诺所创作的五幕大歌剧(英语:Grand opera)。剧情根据德国大文豪哥德的悲剧《浮士德》第一部(Faust. Der Tragödie erster Teil)所改编,剧本创作
- 氮原子2s2 2p32, 5蒸气压第一:1402.3 kJ·mol−1 第二:2856 kJ·mol−1 第三:4578.1 kJ·mol−1 (主条目:氮的同位素氮是一个化学元素,化学符号为N,原子序为7,在丹尼尔·卢瑟福在1772
