潜在语义学

✍ dations ◷ 2025-06-06 20:14:23 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 鞭毛鞭毛是很多单细胞生物和一些多细胞生物细胞表面像鞭子一样的细胞器,用于运动及其它一些功能。在三个域中,鞭毛的结构各不相同。细菌的鞭毛是螺旋状的纤维,像螺丝一样旋转,属于生
  • 奥斯卡·明科夫斯基奥斯卡·闵可夫斯基(Oskar Minkowski 1858年1月13日-1931年7月18日)德国生物化学家、布雷斯劳大学教授,胰岛素的发现者。数学家赫尔曼·闵可夫斯基的哥哥、天天物理学家鲁道夫·
  • 谷丙转氨酶谷丙转氨酶(英文:Alanine transaminase,缩写ALT)是一种转氨酶(EC 2.6.1.2,存在于血浆及多种身体组织中,但最常见与肝脏关联。也叫血清谷氨酸丙酮酸转氨酶(英语:serum glutamate pyruv
  • 呼气流量峰值峰值呼气流量(英文:peak expiratory flow,PEF),也称峰值呼气流量测定(英文:peak expiratory flow rate, PEFR)是一个人的最大呼气速度,用峰值流量计测量,一个用于监测一个人呼吸空气能
  • 卡尔娄·武尔班尼卡洛·乌尔巴尼(意大利语:Carlo Urbani,1956年10月19日-2003年3月29日),又译乌尔班尼或厄巴尼,意大利医生,是首位留意到SARS是一种全新传染病的医生。乌尔巴尼是无国界医生意大利分
  • 无血手术无血手术或无血外科手术,是一种外科医学的技术,其主要目的,在于令到手术时病人的出血量减至最低,以尽可能避免因为伤口过大,令病人失血过多而需要输血。此技术更可完全避免因输血
  • 债务债或债务(英语:Debt),可以简单的解释为一个自然人或公司、财团、组织、政府等机构法人亏欠其他个体的东西,可以是金钱,也可以是别的有价物。债务有别于会计意义上的负债(Liabilitie
  • 癌变癌变(英语:carcinogenesis)通常用来形容正常细胞转变成癌细胞的致癌过程,是细胞DNA受损突变后发生在细胞及基因级别上的、从而导致细胞不受机体控制恶性增殖的一系列改变,最终引
  • 瑞氏综合征雷伊氏综合征(Reye's syndrome),又称雷氏综合征是会快速进展的脑部疾病(英语:Encephalopathy)。症状包括呕吐、精神混乱、癫痫发作、失去意识(英语:Unconsciousness)。虽然一般也会有
  • 集合集合(英语:Set,或简称集)是基本的数学概念,它是集合论的研究对象,指具有某种特定性质的事物的总体,(在最原始的集合论─朴素集合论─中的定义,集合就是“一堆东西”。)集合里的事物(“