潜在语义学

✍ dations ◷ 2025-08-28 17:11:11 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 碳循环碳循环是一种生物地质化学循环,指碳元素在地球上的生物圈、岩石圈、土壤圈、水圈及大气中交换。碳的主要来源有四个,分别是大气、陆上的生物圈(包括淡水系统及无生命的有机化合
  • 马鼻疽马鼻疽(Glanders),一种由细菌鼻疽伯克霍尔德氏菌引起的传染病,通过饮水与受感染的食物,在马、骡及驴子之中传播。感染这种细菌的马,在肺及其他器官中会出现溃疡性结节性病。在上呼
  • 子实层子实层(hymenium),是子囊菌门与担子菌门真菌子实层体上的构造。子实体中,最内侧的组织为菌髓,其外为子实下层(subhymenium),最外侧即为子实层。子实层的部分细胞可发育成担子(英语:bas
  • 人为疾患人为疾患,亦作人为障碍,是一种在人格及行为方面的精神病障碍。病况包括蓄意制造病征、伪装病征、又或把原有病征夸大。代理性人为疾患指一种源自病患照顾者的人为疾患。孟乔森
  • 沙状病毒科沙状病毒科(Arenavirinae, ARV)是一种会造成严重的人畜共同传染病的病毒科类。其宿主,啮齿类动物,尤其是老鼠,和人之关系自古已来,均交往过于密切,造成本科病毒在人类和老鼠宿主
  • 玻利维亚出血热马秋波病毒玻利维亚出血热(英语:Bolivian hemorrhagic fever,简称BHF,别名有black typhus、Ordog Fever等)是一类由感染马秋波病毒引起的病毒性出血热。该疾病为人畜共通传染病,起
  • 印度艾滋病情况根据印度国家艾滋病控制组织(英语:National AIDS Control Organisation)的数据,2013年后天免疫缺乏症候群在印度的患病率为0.27,估计印度有239万人患有艾滋病,而英国医学期刊在201
  • Gilead Sciences吉利德科学公司(Gilead Sciences, Inc.)是一家美国大型生物制药公司,成立于1987年,总部位于加州旧金山湾区的福斯特城。在台湾注册的名称为“吉立亚”。主要生产和研发针对艾滋
  • A07EAA·B·C·D·G·H·QI·J·L·M·N·P·R·S·VATC代码A07(止泻药,肠道抗炎/抗感染药)是解剖学治疗学及化学分类系统的一个药物分组,这是由世界卫生组织药物统计方法整合中心(The
  • 尼阿西斯尼阿西斯(英语:Panyassis),约活动于公元前5世纪前后。古希腊史诗诗人之一,哈里卡尔纳苏斯人,希罗多德的叔父,著有14卷本《赫拉克勒斯的故事》和《伊奥尼亚诸城的建立》。前者现存少