潜在语义索引

✍ dations ◷ 2025-05-16 02:41:47 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。 比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。 其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。 需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。

相关

  • 梭杆菌门梭杆菌门(Fusobacteria)是一个小类群的革兰氏阴性细菌。其中梭杆菌属(Fusobacterium)常见于消化道,是口腔菌群之一,也可导致一些疾病。今年10月份,两个研究小组发布了几乎相同的
  • 凝血酶原时间凝血酶原时间(prothrombin time),简称PT,是一套检测外在凝血路径的方法。由于目前检测的标准是依照国际标准化比值(international normalized ratio,简称INR),因此该检测又称为“Pro
  • 人类嗜T淋巴球病毒一型Human T-lymphotropic virus人类嗜T淋巴球病毒一型(Human T-lymphotropic virus 1, HTLV-1)是一种感染后可导致血癌或其他转移癌的病毒,由输血、针头、性行为、母子传染。该
  • DAPIDAPI即4',6-二脒基-2-苯基吲哚(4',6-diamidino-2-phenylindole),是一种能够与DNA强力结合的荧光染料,常用于荧光显微镜观测。因为DAPI可以透过完整的细胞膜,它可以用于活细胞和固
  • 决定性问题在可计算性理论与计算复杂性理论中,所谓的决定性问题(Decision problem)是一个在某些形式系统回答是或否的问题。例如:“给两个数字x与y,x是否可以整除y?”便是决定性问题,此问题可
  • 地球辐射平衡地球能量收支或全球能量收支预算(英语:Earth's energy budget)指的是入射大气系统的来自太阳的能量减去散失到外层空间的能量后留在地球和地球大气层中的能量。对于地球能量收
  • 剪接体剪接体(英语:Spliceosome)是一种由RNA与蛋白质剪接体次单位所组成的超大型复合物,用来将mRNA序列中转录自DNA模板的内含子移除,并将剩余的外显子连接起来(此过程称为剪接)。剪接
  • 必需氨基酸必需氨基酸(essential amino acid、indispensable amino acid),指只存在食物中,动物无法合成,只能由食物中摄取的氨基酸,这些氨基酸被称为必需氨基酸。动物需摄取必需氨基酸以制造
  • 蔡立慧蔡立慧(1960年3月18日-),美籍华裔生物学家。1983年国立中兴大学兽医学系毕业、威斯康辛大学分子生物硕士、1990年美国德州大学西南医学中心病毒学博士、中央研究院院士,美国麻省
  • 建材建筑材料是指用于土木工程的各种材料的总称,简称“建材”。狭义上的建材是指用于土建工程的材料,如钢、沙石、玻璃、水泥、涂料等,通常将水泥、钢材和沙石称为一般建筑工程的三