潜在语义学

✍ dations ◷ 2025-10-21 00:16:22 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 分解作用分解作用,又称腐烂、腐败,是指动物蛋白质及其有关之有机物分解成无机物,而且回到大自然物质循环的过程,特别是由缺氧微生物和腐化细菌。分解是一个大自然经常进行且非常重要的过
  • 化疗药人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学化学疗法(英语:Chemotherapy),简称化疗(Che
  • 体外In vitro是拉丁语中“在玻璃里”的意思,意指进行或发生于试管内的实验与实验技术。更广义的意思,则指活生物体之外的环境中的操作。常见的例子是人工受精。在细胞生物学等领域
  • 混合经济混合经济体系是指混合了传统经济体系、计划经济体系以及市场经济体系的经济体系,以解决三个基本的经济问题:生产什么、怎样生产、为谁生产。建立于混合经济上的国家称之为混合
  • 胺碘酮胺碘酮(英语:Amiodarone)为一种抗心律失常药,可用于预防或治疗数种心律不整,包含心室频脉(英语:ventricular tachycardia)(VT)、心室颤动(VF)、宽QRS复合波心搏过速、心房颤动,以及阵发性
  • 超大陆超大陆(英语:supercontinent),一般定义为拥有一个以上陆核(continental core)或克拉通的大陆。以下为地质年代中曾出现与可能形成的超大陆,依照时间顺序排列:
  • 万丹省万丹省(印尼语:Banten)是印度尼西亚的一个省,位于爪哇岛最西部,隔巽他海峡与苏门答腊岛相望。2000年自西爪哇省分出。面积9,160.7平方公里。首府西冷。下辖三市和四区。2005年人
  • 摇晃婴儿综合症虐待性头部创伤(英语:Abusive head trauma,简写AHT),旧称摇晃婴儿综合症(英语:Shaken baby syndrome,简写SBS),是指因婴儿受到暴力地摇晃而对其脑部产生的损害,为一种儿童虐待。在美国,
  • 黑心食品黑心食品,涉及食品污染(英语:Food Contamination)、微生物学或非法使用食品添加物事件时有发生,如因收获不佳或贮存的粮食衍生霉菌毒素(英语:Mycotoxin),使用违禁兽药产品,工业污染排
  • 基因家族基因家族(英语:Gene family),是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。一