潜在语义学

✍ dations ◷ 2025-11-14 19:04:36 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 生物医学工程人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学生物医学工程(Biomedical engineering)
  • 红螺菌目红螺菌目(Rhodospirillales)是变形菌门α-变形菌纲下的一目。进行不产氧的光合作用。本目很多细菌属于紫细菌。医学导航:病菌细菌(分类)gr+f/gr+a(t)/gr-p(c/gr-o药物(J1p、w、n、m、疫
  • Foix-Alajouanine综合征福克斯-阿拉吉安尼氏综合征(Foix–Alajouanine syndrome),又名福-阿综合征、亚急性坏死性脊髓炎,是一种由脊髓动静脉畸形(英语:arteriovenous malformation)导致的病症。福克斯-阿
  • 减毒病毒疫苗减毒活病毒(英语:attenuated virus,又译弱化病毒)是指致病性被削弱的病毒,这些病毒在毒性降低的同时,仍保有活性,也就是并未被杀死。制造这类病毒的主要目的是为了生产疫苗。与其相
  • 历史联合国是第二次世界大战结束后成立的国际组织。自那时起,联合国逐步拓展了其目标与行动范畴,在21世纪初已发展成为了典型的国际性机构。美国总统富兰克林·罗斯福是最先使用“
  • 先天缺陷先天性障碍,又称先天性疾病、先天畸形、先天缺陷,是指发育中的胎儿因为遗传性疾病或发育环境等因素导致某个部位特征结构畸形,导致在婴儿出生时即有的病症,包括了身体(英语:Physic
  • 选民观念选民是指各种自认为“被神所拣选的人”。常常被视为是神挑选,实现天命(例如在地上充当先知)的人、甚至是一个受神喜爱的族群。这个词汇特别是用以指以色列人,因为在《旧约圣经·
  • 图林根图林根自由州(德语:Freistaat Thüringen)是德国十六个联邦州之一,面积16,200平方千米,在联州中列第十一位;人口245万,列第十二位。首府为爱尔福特。图林根绿色植被覆盖良好,加之位
  • 验证理论证明论是数理逻辑的一个分支,它将数学证明表达为形式化的数学客体,从而通过数学技术来简化对他们的分析。证明通常用归纳式地定义的数据结构来表达,例如链表,盒链表,或者树,它们根
  • 自然演绎在数理逻辑中,自然演绎是证明论中尝试提供象“自然”发生一样的逻辑推理形式模型的一种方式。这种方式对比于使用公理的公理系统。自然演绎来源自对共通于弗雷格、罗素和希尔