首页 >
潜在语义学
✍ dations ◷ 2025-11-18 08:31:47 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。
相关
- 胸部创伤胸部创伤,是指对胸部的任何形式的物理伤害,对象包括但不限于肋骨、心脏和肺部。胸部创伤占所有创伤性死亡人数的25%。大多数钝器造成的损伤可通过相对简单的措施进行处理,如气管
- 皮肤病学皮肤科(dermatology)是医学上治疗皮肤疾病的专门分支。全身的皮肤面积广大,因此皮肤是人体最大的器官。 皮肤病学是研究皮肤的结构、功能和疾病的学科,在广义上,还包含对头发、指
- 鼓膜鼓膜(Tympanic membrane)是分割外耳和中耳的薄膜。鼓膜是耳的重要组成部分,它获取空气中的声音,并将之传递给中耳中的听小骨。在听小骨中,直接与鼓膜相连的是锤骨。鼓膜的破裂或
- 免疫遗传学免疫遗传学(英语:Immunogenetics 或 Immungenetics)是一个生物学分支,研究免疫系统和遗传之间的关系。
- ΔFosB235414282ENSG00000125740ENSMUSG00000003545P53539P13346XM_005258691、NM_001114171、NM_006732NM_008036、XM_006539543、NM_001347586NP_001107643、NP_006723、XP_0052
- CD4细胞1CDH, 1CDI, 1CDJ, 1CDU, 1CDY, 1G9M, 1G9N, 1GC1, 1JL4, 1Q68, 1RZJ, 1RZK, 1WBR, 1WIO, 1WIP, 1WIQ, 2B4C, 2JKR, 2JKT, 2KLU, 2NXY, 2NXZ, 2NY0, 2NY1, 2NY2, 2NY3, 2NY4
- 中大西洋地区中大西洋州份(英语:Mid-Atlantic), 通常是指美国境内的在新英格兰和美国南大西洋地区之间的地区。根据不同来源,有不同的定义,它一般包括纽约州、新泽西州、宾夕法尼亚州、特拉华
- 出口出口可以指:
- 氰氰(Cyanogen)旧译作
- 述补短语述补短语是短语的结构分类之一,它的前后两个组成部分称为述语和补语。述补短语又称为动补短语、中补短语、后补短语、谓补短语。补语是用来补充说明述语的动作行为的情况、结
