潜在语义学

✍ dations ◷ 2025-09-16 18:24:33 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 玉米玉米(学名:Zea mays)是一年生禾本科草本植物,是全世界总产量最高的重要粮食作物。同时也可以当作饲料使用,还有在生物科技产业作为乙醇燃料的原材料。而且玉米更在各个化工领域被
  • 钙离子通道阻滞剂钙离子通道阻滞剂(英语:calcium channel blocker,CCB、calcium channel antagonists 或 calcium antagonists)是阻断钙离子经过细胞膜上的钙离子通道进入细胞的药物。 钙离子通
  • 腹膜透析腹膜透析(法语:La dialyse péritonéale, DP; 英语:Peritoneal dialysis、PD)是在腹腔注入透析溶液,利用体内的腹膜过滤,清除血液中新陈代谢的废物及多余水分,俗称“洗肚”,是除血
  • 感觉系统感觉系统(英语:sensory system)是神经系统中处理感觉信息的一部分。感觉系统包括感受器、神经通路以及大脑中和感觉知觉有关的部分。通常而言感觉系统包括那些和视觉、听觉、触
  • 会旗联合国会旗,亦称联合国旗,启用于1946年12月7日,以蓝色为底,中央的白色标志同时为联合国标志。标志主题为采用方位等距投影(英语:Azimuthal equidistant projection)绘制、从北极下
  • StataStata是Statacorp于1985年开发出来的统计程序,在全球范围内被广泛应用于企业和学术机构中。许多使用者工作在研究领域,特别是在经济学、社会学、政治学及流行病学领域。最新的
  • 本质主义本质主义(Essentialism),又译为精粹主义,是一种认为任何的实体(如一只动物,一群人,一个物理对象,一个观念)都有一些必须具备的本质的观点。这种观点同时会认为无法对现象作出最终解释
  • 保加利亚第二帝国奥德里西亚 前460年–46年罗马时期 46年–681年旧大保加利亚 632年–668年第一帝国 681年–1018年拜占庭保加利亚 1018年–1185年第二帝国 1185年–1396年奥斯曼帝国统治 13
  • 奥斯河坐标:44°07′15″N 00°16′49″E / 44.12083°N 0.28028°E / 44.12083; 0.28028奥斯河是法国的河流,位于该国西南部,属于热利斯河的右支流,河道全长120公里,发源自贝尔纳代特
  • 人类的由来《人类的由来》全称《人类的由来及性选择》(英语:The Descent of Man, and Selection in Relation to Sex),是英国科学家查尔斯·达尔文的名著,首次出版于1871年。在此书中达尔文