首页 >
潜在语义索引
✍ dations ◷ 2025-11-18 00:50:43 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。
比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。
需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。
相关
- 连接蛋白结构 / ECOD连接蛋白(Connexin,Cx)。在脊椎动物,由connexin组成的间隙连接通道(Gap Junction channel)介导相邻细胞之间离子、小分子营养物质交换及信号分子传播。哺乳动物发育早
- 造影剂造影剂也称为对比剂、㫫影剤,是一种X光无法穿透的药剂,用于让体内器官在X光检查时能看得更清楚。例如消化道摄影时,医师会让患者喝下一杯造影剂溶液(大多含钡),然后用各种角度照相
- 人均国民生产总值国民生产总值(英语:Gross National Product,缩写:GNP),台湾亦称国民生产毛额,在描述地区性生产时称本地居民生产总值或地区居民生产总值,即某一区域公民一年内所生产的最终产品(包括
- 高级心脏血管救命术高级生命支持,亦为高级心肺复苏、ACLS,是指一系列的临床介入(clinical intervention),作为以下情况的应急处置:心跳停止、休克,以及其他医学上危及生命的紧急情况;亦指施行此临床
- 打喷嚏喷嚏,又称喷嚏反射,是一种人和动物的生理反射行为。反射的感受器在鼻黏膜,由三叉神经传导到脑部。打喷嚏前,鼻子变得发酸、发痒。过程一般为急促吸气,张嘴,然后高速(可达每小时50公
- 图书馆2.0图书馆2.0代表一种现代化形式的图书馆服务之广义模式,它反映了图书馆提供服务给使用者的模式之转变。图书馆2.0的概念是建立在商业2.0(英语:Business 2.0)和Web 2.0的哲学基础上
- 宇宙飞行员航天员是指接受航天训练后,指挥、操纵或搭乘航天器的人员。在美国,以旅行高度超过海拔80公里(50英里)的人被称为“astronaut”。国际航空联合会(FAI)定义的宇宙航行则需超过100公
- 食品药物管理局食品药物管理局指的是下列国家的政府机构之一:
- GenBank基因银行(GenBank)是一个开放获取的序列数据库(英语:sequence database),对所有公开可利用的核苷酸序列与其翻译的蛋白质进行收集并注释。此数据库是国际协作核酸序列数据库(英语:In
- 树状图树状结构(英语:Tree structure),又译树形结构,或称树状图(tree diagram)是一种将层次结构式的构造性质,以图象方式表现出来的方法。它的名称来自于以树的象征来表现出构造之间的关系
