潜在语义学

✍ dations ◷ 2025-12-10 13:21:36 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 舌病舌病是先天性或后天性的舌部疾病,种类很多。舌病很常见。例如,在美国,估计成人患病率为15.5%。舌病在戴假牙和吸烟的人群中更为常见。
  • 狼(学名:Canis lupus),或称为灰狼,哺乳纲,犬科,在生物学上与狗为同一物种,为现生犬科动物中体型最大的物种。狼这个物种曾是地球上分布地区最广的哺乳动物,包括北美和欧亚大陆,但如今
  • 牛津大学坐标:51°45′40″N 1°15′12″W / 51.7611°N 1.2534°W / 51.7611; -1.2534牛津大学(英语:University of Oxford;非正式:Oxford University,或:Oxford;勋衔简称:Oxon)位于英格兰东
  • 地壳中含量以下是地球地壳中的化学元素丰度的列表,其中包括 5 份不同资料来源得到的结果,此处的丰度以质量百分比的丰度为准。其中的数字是估计值,会随着资料来源及估计方式不同而改变。
  • 外贸国际贸易,也称通商,是指跨越国境的货品和服务交易,一般由进口贸易和出口贸易所组成,因此也可称之为进出口贸易。国际贸易对很多国家来说是国民生产总值一个重要部分,进出口贸易可
  • 查理大帝无 (前一位拥有相同头衔:查理曼(法语:Charles Ier le Grand、Charlemagne,德语:Karl I der Große,拉丁语:Carolus Magnus,(742年4月2日-814年1月28日)或称“查理大帝”,是欧洲中世纪早
  • 奥斯河坐标:44°07′15″N 00°16′49″E / 44.12083°N 0.28028°E / 44.12083; 0.28028奥斯河是法国的河流,位于该国西南部,属于热利斯河的右支流,河道全长120公里,发源自贝尔纳代特
  • 瘟疫公司:进化《瘟疫公司》(英语:Plague Inc.)是一款由Ndemic Creations独自开发,适用于iOS、Android和Windows Phone平台的战略游戏。玩家在游戏中需要将一种病毒传遍整个世界,然后将所有人消
  • 中文古典典籍中文古典典籍是指中国及其他汉字文化圈地区(日本、朝鲜半岛、越南、琉球等地)古代的汉文典籍,主要是指经过历史的淘汰选择,被人们所公认代表一个民族的文化水平所达到的高度、深
  • 中文输入技术中文输入技术是指将汉字输入计算机等电子设备的技术,它是中文信息处理技术的一个重要组成部分。