首页 >
潜在语义学
✍ dations ◷ 2025-07-11 15:22:17 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。
相关
- 生物活性化合物植物化学(英语:Phytochemistry)严格地来说是对植物化学成分的研究。这些化合物取自植物。在更狭义的层面上,这个术语常被用于描述存在于植物中的大量的多种次级代谢化合物(次级
- 瑞德西韦GS-5734 伦地西韦瑞德西韦(英语:Remdesivir),又译伦地西韦,是由美国吉利德科学公司开发的一种新型实验性广谱抗病毒药物,用来针对埃博拉病毒及被认为可以有效抑制呼吸道上皮细胞
- 立克次氏体痘立克次氏体痘(英文:Rickettsialpox)是由立克次氏体属病原体(Rickettsia akari(英语:Rickettsia akari))引起的、由螨传播的传染性疾病。1946年,该种疫情在纽约一片公寓群爆发后,医师罗
- 阴极阴极(英文:Cathode)是发生还原反应的电极,相对于阳极为其对立面。在放电的电池中,阴极为正极。正极指电源中电位(电势)较高的一端。电流的方向为从正极流出,从负极流入。但是实际上
- 隔离在医疗保健设施(英语:health care facilitiess)中的隔离是指为了达到感染控制(英语:infection control)的目的,需进行的多个方法之一:预防感染性疾病(英语:contagious disease)由患者身
- 非维管植物维管植物 Tracheophyta非维管植物(或作非维管束植物)是对没有维管(木质部和韧皮部)的植物(包括绿藻)的总称。虽然非维管植物缺乏此类特殊的组织,但一部分的非维管植物会有特化来在
- 诺贝尔生理学或医学奖诺贝尔生理学或医学奖(瑞典语:Nobelpriset i fysiologi eller medicin),通常合称诺贝尔生理医学奖,由诺贝尔基金会管理,该奖项每年颁发一次,用于表彰在生理学或医学领域作出重要发
- 淡水淡水,是水质中仅有微量溶解的氯化钠的水,是相对于海水或矿泉水的一种水体。大气降水、水汽凝结凝华、结晶水转化成自由水、火山爆发(存在争议)、彗星撞击。液态淡水和固态淡水,气
- SMILES简化分子线性输入规范(英语:Simplified molecular input line entry specification,简称SMILES),是一种用ASCII字符串明确描述分子结构的规范。SMILES由Arthur Weininger和David
- 西班牙流行性感冒1918年流感大流行(英语:1918 flu pandemic)是于1918年1月至1920年12月间爆发的全球性甲型H1N1流感疫情,此次疫情造成全世界5亿人感染,1.7千万至5千万死亡,传播范围达到太平洋群岛