首页 >
潜在语义索引
✍ dations ◷ 2025-12-02 12:25:32 #潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。
比如:单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:可以看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思,文章的意思,机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
其原因和自然语言的特点有关。从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。
需要强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充(排名算法会为不同的影响因素赋予不同的权重,Latent Semantic Indexing的权重值已经慢慢加大),但绝不是取代现有的关键词匹配算法。
相关
- 锌3d10 4s22, 8, 18, 2蒸气压第一:906.4 kJ·mol−1 第二:1733.3 kJ·mol−1 第三:3833 kJ·mol−1 (主条目:锌的同位素锌(英语:zinc)是化学元素,化学符号是Zn,原子序数是30,相对原子
- 磺胺二甲嘧啶磺胺二甲嘧啶是一种磺胺类药物,其INN名称是“Sulfamethazine”。该药物可用于治疗支气管炎、前列腺炎,以及泌尿道感染等病症。该药物在血液中的半衰期暂时未知,在大鼠体内的LD5
- 标音标音(英语:phonetic transcription),是采用符号或记号来标注语素文字的发音方式及语调,亦可称为音标或标音符号。标音符号主要有两类,一类是以拉丁字母为基础的标音符号如国际音标
- 没食子酸没食子酸(英语:Gallic acid)亦称五倍子酸或棓酸,是一种有机酸,可见于五倍子、金缕梅、漆树、橡树皮、茶叶中。化学式C6H2(OH)3COOH。没食子酸易溶于水、醇和醚;具有酚(易被氧化和三
- 中胶层中胶层是存在于腔肠动物体表的两层上皮细胞之间的一种透明、胶状物质。中胶层的主要构成物质是水。除此之外,还包括几种纤维状蛋白,例如胶原质和硫酸乙酰肝素蛋白聚糖。 中胶
- 系统地理学系统地理学(Systematic geography)是地理学四大分类的其中之一,也是地理学的主干。系统地理学可再分为自然地理学和人文地理学。大多数的地理学研究都是在系统地理学中的各分类
- 主流新教主流新教(mainline Protestant,或 mainstream Protestant、oldline Protestant),是指美国的一些新教教会。这些教会大多持自由主义神学立场,和福音派、基要派新教教会相对,现有210
- 三磷酸胸苷胸苷三磷酸(Thymidine triphosphate;TTP)是一种核苷三磷酸,也是合成DNA的原料之一。
- 冀州冀州,是汉族传统中的汉地九州之一,冀州地区即今日之山西、河北、辽宁三省及其附近地带。冀州与兖、青、徐、扬、荆、梁、雍、豫等州合称为九州。虞夏之际,大禹分天下为九州,冀州
- 声子声子(Phonon)是晶体中晶体结构集体激发的准粒子,化学势为零,服从玻色-爱因斯坦统计,是一种玻色子。声子本身并不具有物理动量,但是携带有准动量 ℏ
