潜在语义索引

✍ dations ◷ 2025-11-25 20:28:33 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。 比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。 其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。 需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。

相关

  • 体温计医疗温度计,又称体温计、探热针,是拿来量测人体温度用的仪器。可用来量测口腔温度、腋下温度或是肛门内的直肠温度。传统的水银式医疗温度计工作方式与气象用最高温度计相同。
  • 血清阴性脊椎关节病变脊椎关节病变(英语:spondyloarthropathy,缩写为 SpA)泛指任何影响脊椎关节的关节病变,它是一大类疾病的集合总称,而非单一个特定疾病。脊椎病变则是脊椎骨本身的问题,两者并不相同
  • 卫生系统医疗系统(health system)也称为医疗照护系统(health care system),是由人、机构及资源所组成的组织,目的在于提供医疗卫生服务,符合目标人群的健康需求。世界上有许多的不同的医疗
  • 阿普唑仑阿普唑仑(英语:Alprazolam),是一种短效的苯二氮䓬类药物。常见商品名称为赞安诺(英语:Xanax)。最常用于焦虑症,尤其会用于短期治疗恐慌症与广泛性焦虑症(GAD);另有用途为与其他药物并用
  • 全球和平指数全球和平指数(英语:Global Peace Index,亦称和平指数)是一套用作测量指定国家或地区的和平程度的指标,该指数由名为英国经济学人信息社(Economist Intelligence Unit)的专家小组所
  • 园林工具园艺工具是从事园艺工作或作为兴趣般的业余性活动时使用的工具。部分工具于农耕时亦会使用。最早手动工具由木材、燧石和骨头所组成,然而,工具为了使能更加持久高效切削,后来慢
  • 类核拟核(英语:nucleoid;意指“与核相似”,又译类核),也称核区(nuclear region)、核体(nuclear body)或染色质体(chromatin body)。存在于原核生物,是没有由核膜包被的细胞核,也没有染色体,只有
  • 手性拆分手性拆分(Chiral resolution),亦称光学拆分(Optical resolution),或外消旋体拆分。在立体化学中,用以分离外消旋化合物成为两个不同的镜像异构物的方法,为生产具有光学活性药物的重
  • 养猪业猪生产学是动物科学的一个重要分支,主要研究养猪生产中的各种理论和技术。根据食用习惯和市场需求的不同,一般可分为脂肪型、瘦肉型和肉脂兼用型。猪只的各部分也可以加工,作为
  • 白珠树白珠树(学名:Gaultheria leucocarpa var. cumingiana)是杜鹃花科白珠树属白果白珠的变种。分布在中南半岛、台湾岛、菲律宾、马来西亚以及中国大陆的福建、广东、江西、广西、