潜在语义学

✍ dations ◷ 2025-12-11 15:05:43 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 免疫缺陷免疫缺陷(英语:immunodeficiency)是指免疫系统抵抗传染病的能力失常或欠缺。免疫缺陷还可能降低肿瘤免疫监视功能。免疫缺陷多为继发性(secondary)免疫缺陷,不过也有些人生来就有
  • 轻偏瘫轻偏瘫(英语:Hemi-paresis)是人体左右某一侧出现的麻痹的症状,最严重时将导致偏瘫(英语:Hemi-plegia),或称半身不遂,即半个身体的完全麻痹。这两种症状的成因有很多,既有先天原因也有
  • 尼扎替丁尼扎替丁(INN:nizatidine)是一种组胺H2受体阻抗剂,主要用于抑制胃酸的分泌,并用于治疗消化道溃疡和胃食道逆流。尼扎替丁由礼来公司开发,并以商品名称Tazac和Axid推出市场。尼扎替
  • 腮腺炎病毒流行性腮腺炎病毒,或称腮腺炎病毒,是指引起腮腺、舌下腺、颚下腺肿大、头痛、发烧,能引起多种并发症,男性还易引起睾丸肿胀。现存的野生型种为88-1961。
  • NP核蛋白是指与核酸(脱氧核糖核酸,DNA或者核糖核酸,RNA)有关的任何蛋白质。譬如,组织蛋白类型的蛋白-染色质。端粒酶,核糖核蛋白和精蛋白都是核蛋白。典型的核蛋白包括核糖体,核小体和
  • 二十世纪1901年1月1日至2000年12月31日的这一段期间被称为20世纪。该世纪最初属于“不列颠治世”后期,是工业革命大爆发的年代,识字率大量提升,科学研究一日千里,人类学会了制造航天器与
  • 兔子兔,又称兔子,在汉语中是哺乳类兔形目兔科(学名:Leporidae)物种的总称。正在吃牧草的兔子一只野兔一个宠物兔一只睡觉的家兔一个好奇的棉尾兔两个兔子兔子剪影兔子雕塑作品拟人化
  • 盎格鲁美洲盎格鲁美洲(英语:Anglo-America),又称英语美洲,用作描述以英语为主要语言,或者与英格兰或英伦三岛在历史、语言或文化上有密切关系的美洲地区,也可以指英语世界的美洲部分,与操罗曼
  • 东英县东英县(越南语:Huyện Đông Anh/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKSCS-UNI-H",
  • 安东尼·范卢文霍克安东尼‧菲利普斯·范‧列文虎克(荷兰语:Antonie Philips van Leeuwenhoek;1632年10月24日-1723年8月26日)是一位荷兰贸易商与科学家,有光学显微镜与微生物学之父的称号。最为著名