首页 >
潜在语义学
✍ dations ◷ 2025-12-06 22:13:52 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。
相关
- 纲纲(英语:class,拉丁语:classis,复数:classes)是生物分类法中的一个分类级别,以及该级别中的分类法的分类单元。其他众所周知的级别按照大小降序排列是生物、域、界、门、科、属和物
- T淋巴细胞T细胞(英语:T cell、T lymphocyte)是淋巴细胞的一种,在免疫反应中扮演着重要的角色。T是胸腺(thymus)而不是甲状腺(thyroid)的英文缩写。T细胞在骨髓被制造出来之后,在胸腺内进行“新
- 马凡氏综合征马凡氏综合征(Marfan syndrome)为一种遗传性结缔组织疾病。马凡氏综合征为体染色体显性遗传,发生于FBN1基因(位于第15对,q21.1位置上),负责编码结缔蛋白原纤蛋白(fibrillin-1;一种
- 司美匹韦司美匹韦(英语:Simeprevir),是一种抗病毒药物,常与其他药物并用治疗丙型肝炎。本品主要用于治疗丙型肝炎第一及四型基因型,常见的市售药名为奥利西奥(英语:Olysio)。可并用的药物有索
- 林奈卡尔·冯·林奈(英语:Carl Linnaeus,瑞典语:Carl von Linné,1707年5月23日-1778年1月10日),也译为林内,受封贵族前名为卡尔·林奈乌斯(Carl Linnaeus),由于瑞典学者阶层的姓常拉丁化,又
- 喉咙痛咽喉痛(sore throat、throat pain,又称喉咙痛或喉痛),是指咽喉出现痛楚的症状,最主要的成因是咽喉炎(喉咙发炎),但可由其他原因引致,例如白喉和伤风感冒威胁。 服用非类固醇消炎止痛
- 米高庄逊迈克尔·约翰逊 或译 米高·庄臣、麦可·强森(Michael Johnson),可指下列人物:
- 羊水栓塞羊水栓塞是一种罕见及未被完全了解的产科紧急症候。指在分娩过程中,羊水、胎儿细胞、胎发、胎粪、皮屑等物,透过子宫基底的胎盘进入母体血液循环而诱发母体之发炎反应。这作用
- Visceral pleura脏胸膜(英语:Visceral pleura)覆盖于肺表面,并深入至叶间裂内的一层胸膜,叫做脏胸膜。脏胸膜与肺实质连接紧密,所以又称其肺胸膜。
- 形式逻辑逻辑(古希腊语:λογική;德语:Logik;法语:logique;英语:logic;意大利语、西班牙语、葡萄牙语: logica),又称理则、论理、推理、推论,是对有效推论的哲学研究。逻辑被使用在大部分的
