潜在语义学

✍ dations ◷ 2025-04-02 16:48:51 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 道尔顿分压定律道尔顿分压定律(也称道尔顿定律,道耳顿分压定律)描述的是理想气体的特性。这一经验定律是在1801年由约翰·道尔顿所观察得到的。其描述如下:在组分之间不发生化学反应的前提下,理
  • 维生素过多症维生素过多症(英语:Hypervitaminosis),亦称维生素中毒症,是指由于摄入过量维生素而引发的一系列中毒症状,这类疾病根据与其有关的维生素的字母进行定名,例如摄入过多维生素A引发的
  • 死亡行军死亡行军 是一个针对战俘或其他俘虏或被驱逐出境者的强迫行军,旨在令他们死在途中,这就把它们从一般单纯的用徒步行军去运送囚犯区分出来。死亡行军通常包含严苛的体力劳动和
  • 定鞭藻门Class PavlovophyceaeClass Prymnesiophyceae定鞭藻门(学名:Haptophyta)是一类真核生物,属于多貌生物定鞭隐藻类,曾被归类于囊泡藻界。1955年Parke等引入了"定鞭"(Haptonema)来描
  • 白细胞介素-41BBN、​1BCN、​1CYL、​1HIJ、​1HIK、​1HZI、​1IAR、​1ITI、​1ITL、​1ITM、​1RCB、​2B8U、​2B8X、​2B8Y、​2B8Z、​2B90、​2B91、​2CYK、​2D48、​2INT、​
  • 衣原体属衣原体属(Chlamydia)原包括多种衣原体,现在分别划到衣原体门的几个科中,本属仅保留沙眼衣原体等两个种。
  • 磋商谈判是两人或多于两人进行对话,双方企图达成正向的结果。此正向结果可有利于所有谈判参与者,或仅对个别或一些谈判参与者有利。谈判的目标是解决歧见,以获得个别或集体利益,或形
  • 中毒性休克综合征毒性休克症候群(Toxic shock syndrome,TSS)是一种因细菌外毒素引起的症候群。相关症状包含发烧、红疹、皮肤脱落(英语:skin peeling),及低血压等等。其它与特定病原菌相关的症状包
  • 高低重音高低重音或音高重音(英语:Pitch accent),是一种重音。在高低重音语言里,一个词里的每个音节的音调取决于该音节在词里出现的位置。而声调语言中,每个音节有自己固定的声调,它的声调
  • 双关语双关语,又称一语双关,是一种修辞方法,存在于各种自然语言中,是把词语真正的含义模糊化。双关语在一句话中会有很多种意思,使同一个句子可以理解成两种或多种截然不同的意思。利用