潜在语义学

✍ dations ◷ 2024-11-05 05:44:33 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 膜蛋白膜蛋白(英语:membrane protein)是指能够结合或整合到细胞或细胞器的膜上的蛋白质的总称。而细胞中一半以上的蛋白质可以与膜以不同形式结合。根据与膜结合强度的不同,膜蛋白可以
  • 风疹风疹(英语:rubella, German measles, three-day measles),又称德国麻疹或三日麻疹,是一种由风疹病毒(英语:Rubella virus)感染所造成的疾病。本病的症状轻微,半数患病者通常不会有自
  • 植物相植物相(拉丁文:Flora,源自罗马神话里的花之女神)又译植物群或植物区系,指某一地区某一时段的特定植物种群。Flora另一个意思是植物志,是对一个植物区系的纪录和描述。植物相的原字
  • 蛋白蛋白(英语:Egg white、albumen、glair/glaire)是指蛋(尤其指鸡蛋)内的半透明液体,故又称为蛋清,与蛋黄相对。蛋白遇热后会凝固成白色固体,因而得名。 蛋白就如同哺乳类的羊水一样有
  • 学名二名法(英语:Binomial Nomenclature,Binominal Nomenclature 或 Binary Nomenclature),又称双名法,依照生物学上对生物种类的命名规则,所给定的学名之形式,自林奈《植物种志》(1753
  • 卤代烷烃卤代烷烃或称卤代烷,是指烷烃分子中的一个或多个氢原子被卤素原子(氟、氯、溴、碘)取代的有机化合物,属于卤代烃。天然存在的卤代烃种类不多,大多数卤代烃属于合成产物。卤代烃一
  • Os4f14 5d6 6s22, 8, 18, 32, 14, 2蒸气压第一:840 kJ·mol−1 第二:1600 kJ·mol主条目:锇的同位素锇(Osmium,旧译作銤、鐭)是一种化学元素,符号为Os,原子序为76。锇金属坚硬、易
  • 米利都米利都(希腊语:Μίλητος)是位于安纳托利亚西海岸线上的一座古希腊城邦,靠近米安得尔河口。它在赫梯文献中被称为Millawanda或者Milawata,在荷马的《伊利亚特》中也有出现。
  • 宗教裁判所宗教裁判所(拉丁语:Inquisitio Haereticae Pravitatis,或称异端裁判所、异端审判)是教宗额我略九世于1231年决意、由道明会设立的宗教法庭。此法庭是负责侦查、审判和裁决天主教
  • 形式文法在形式语言理论中,文法(为了避免歧义,常称作“形式文法”)是形式语言中字符串的一套产生式规则(英语:Production (computer science))。这些规则描述了如何用语言的字母表生成符合