潜在语义学

✍ dations ◷ 2025-12-02 19:00:30 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 儿科小儿科(或称儿科)是现代医学的一个分支,专门医疗患病的婴儿、儿童及青少年。最大的年龄通常至青春期。一个受到这方面知识专门训练的医生被称作儿科医生。
  • 艾伯斯坦-巴尔病毒人类疱疹病毒第四型(拉丁语:Epstein-Barr virus,缩写EBV、爱泼斯坦-巴尔病毒、 human herpesvirus 4 (HHV-4)),又称为EB病毒,是最常见能引起人类疾病的病毒之一。EBV是在公元1964
  • 胃灼热胃灼热(英语:heartburn),亦称为"酸消化不良"(acid indigestion) 是指在中胸部或上中腹部(epigastrium)所产生的灼热感。疼痛往往源于胸部且可放射到颈部,喉部,或下颌角。胃灼热通
  • 肋骨肋骨(拉丁语Costa,复数Costae,形容词costalis)是胸腔中枝状的骨,背起于脊柱胸部。是肋的组成部分,肋包括肋骨和肋软骨。一种正常的畸变为叉状肋骨。每条肋由肋骨(Os costale)和肋软
  • 普瑞德威利症候群普瑞德威利综合征(俗称小胖威利症,英文名Prader-Willi syndrome,PWS)是一种肇因于特定基因功能丧失的遗传性疾病 。新生儿患者会出现包括肌肉无力(英语:Hypotonia)、进食不良及发育
  • 1986年莱茵河污染事件1986年莱茵河污染事件(也称为山德士化学泄漏事件)是指1986年11月1日因为化工厂仓库发生爆炸起火,导致大量由磷化物、汞等制成的杀虫剂、除草剂、杀真菌剂的有害物质随着灭火用
  • 上皮组织上皮组织,简称上皮(英语:Epithelium),包括被覆上皮、腺上皮和感觉上皮三类。被覆上皮是被覆于各结构界面处的上皮组织,由规则密集排列的上皮细胞和少量细胞间质组成。在胚胎的发育
  • 国家卫生健康委员会1999年规定:印章直径5厘米,中央刊国徽,由国务院制发。中华人民共和国国家卫生健康委员会,官方简称国家卫生健康委,亦简称国家卫健委,是中华人民共和国国务院主管卫生和健康事务的
  • 萨克逊人撒克逊人(英语:Saxons,德语:Sachsen),日耳曼蛮族之一,早年分布在德国境内的下萨克森一带,公元5世纪入侵不列颠岛。中文史学界以“撒克逊人”指登陆不列颠岛的部分,也就是盎格鲁撒克逊
  • 意大利语族意大利语族是印欧语系下的一族,属于颚音类语言。由其下的通俗拉丁语衍生出罗曼语族。从原始印欧语到原始意大利语的规则语音变化的部分列表:在个别意大利语的演化中出现了进一