潜在语义学

✍ dations ◷ 2025-06-27 14:55:40 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 伞菌纲伞菌纲(学名:Agaricomycetes)为真菌界担子菌门的一纲,除了蕈类,也包含了被分类在较早期旧式的分类腹菌纲和同担子菌亚纲中的多个物种。本分类粗略的将同担子菌亚纲(由Hibbett & Th
  • 早发性射精早发性射精(英文:Premature ejaculation)俗称早泄,是指进行性行为时男性射精过早,医学上指是阴茎于插入阴道(阴道内射精延迟时间)或肛门一分半钟内射精。现在更多医生愿意从女性角
  • OECD经济合作与发展组织(简称经合组织;英语:Organization for Economic Cooperation and Development,OECD)是全球36个市场经济国家组成的政府间国际组织,总部设在法国巴黎米埃特堡(Ch
  • 二氧化硫二氧化硫,(英语:sulphur dioxide , sulfur dioxide)化学式是SO2。是最常见的硫氧化物。无色气体,有强烈刺激性气味。大气主要污染物之一。火山爆发时会喷出该气体,在许多工业过程
  • 禽类鸟是鸟纲(学名:Aves)动物的通称,是唯一存活至今的恐龙,现代所有鸟类在生物学上也被分类为鸟形恐龙(即鸟翼类)的一部分;鸟纲的全体成员均为两足、恒温、卵生、身披羽毛且色彩鲜艳各异
  • 第一次犹太罗马战争犹太战争,亦称大起义或犹太人大起义,是位于地中海东岸黎凡特的犹太人在公元66年至135年间,对抗罗马帝国的一连串战争大规模的起义。历史上第一次的犹太-罗马战争(公元66-73年)以
  • 艾福特爱尔福特(德语:Erfurt),又译埃尔福特,是德国中部的一个城市。它是图林根州的首府,并是一个有196,500人口的制造业中心。爱尔福特东北100公里是莱比锡,向西113公里是卡塞尔和向西北1
  • 良性肿瘤良性肿瘤(英语:benign tumor)是肿瘤的一种,通常区别于恶性肿瘤。良性肿瘤的生长速度缓慢,呈膨胀性生长,表面较光滑。由于良性瘤体在局部会不断增大(一般无全身症状),压迫周围的正常组
  • 苗勒管发育不全苗勒管发育不全(Müllerian agenesis, Mayer-Rokitansky-Küster-Hauser syndrome or MRKH),取名于奥格斯特·佛列斯·杰斯佛·卡尔·苗勒(英语:August Franz Joseph Karl Mayer)
  • 罗托卡特语罗托卡特语(Rotokas)是个由大约4000名布干维尔省(布干维尔是巴布亚新几内亚共和国东部的一个岛屿)居民所使用的语言。目前已知罗托卡特语至少有三个方言,它们分别为:中央罗托卡