潜在语义索引

✍ dations ◷ 2024-06-26 12:33:53 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。 比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。 其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。 需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。

相关

  • ALT谷丙转氨酶(英文:Alanine transaminase,缩写ALT)是一种转氨酶(EC 2.6.1.2,存在于血浆及多种身体组织中,但最常见与肝脏关联。也叫血清谷氨酸丙酮酸转氨酶(英语:serum glutamate pyruv
  • 国家象征美国国家象征(英语:National Symbols of the United States)指的是那些常常被使用作为美利坚合众国象征的事物。本文中罗列了多种可用作美利坚合众国象征的事物,部分由《美国法
  • 升糖指数升糖指数(Glycemic index,简称GI),又译糖生成指数,用于衡量糖类对血糖量的影响。在消化过程中迅速分解并且将葡萄糖迅速释放到循环系统的糖类具有高升糖指数。反之,在消化过程中缓
  • 疏密波纵波,又称为疏密波,是指在传播介质中质点的振动方向与波的传播方向平行的一类波,形成的波是疏密相间的波形。非电磁波的纵波的例子有声波(压力的传递、粒子位移、弹性物质中粒子
  • 晋升体系晋升体系(拉丁文:Cursus honorum;意为“荣耀之路”)是在罗马共和国和罗马帝国初期时,有抱负的政治家们就任政府职位的次序。这个制度是为有元老身份的人而设。晋升体系包含军队及
  • 政府首脑政府首脑是国家(或地区)政府或内阁的领导人。在议会制政治体制下一般为总理(如德国),或称首相(如英国),或内阁总理大臣(如日本)等。在总统制政治体制下一般为总统(总统同时也是国家元首
  • 氢氧化钙氢氧化钙,化学式Ca(OH)2,俗称熟石灰或消石灰,是一种微溶于水之白色固体,其水溶液常称为石灰水(量大时,可形成石灰乳或石灰浆),强碱性。在空气中吸收二氧化碳和水等从而变质,通常称其
  • 大亨小传《了不起的盖茨比》(英语:The Great Gatsby,又译《大亨小传》),出版于1925年,是美国作家弗朗西斯·斯科特·菲茨杰拉德所写的一部以1920年代的纽约市及长岛为背景的中篇小说,被视为
  • 加里·基莫维奇·卡斯帕罗夫加里·基莫维奇·卡斯帕罗夫(俄语:Гарри Кимович Каспаров、英文:Garry Kimovich Kasparov ,1963年4月13日-),俄罗斯国际象棋棋手,国际象棋特级大师,前国际象棋
  • 泽兰蒂亚坐标:40°S 170°E / 40°S 170°E / -40; 170西兰大陆(Zealandia),也被称为西兰洲、西兰蒂亚和Tasmantis,是一块几乎被淹没的微大陆(microcontinents)。于8500万到6000万年前从包