首页 >
潜在语义学
✍ dations ◷ 2025-01-23 03:11:31 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。
相关
- 表皮系统外皮系统包覆在生物体的表面,是生物体与外界环境的分界,并且保护生物体免受外来物的侵犯。以单细胞生物而言,外皮即是细胞膜及黏附在胞膜外的分泌物,然而,细菌则有细胞壁来维持细
- 嗜冷生物嗜冷生物是嗜极生物的一种,能够在低温的环境保持生长和繁殖的能力。与之对比的是通常生活在高温环境的嗜热生物。嗜冷细菌在地球上分布很广,因为地球表层很大一片区域的温度都
- J01AA·B·C·D·G·H·QI·J·L·M·N·P·R·S·VATC代码J01(抗菌药)是解剖学治疗学及化学分类系统的一个药物分组,这是由世界卫生组织药物统计方法整合中心(The WHO Collaboratin
- 泡轮虫属泡轮虫属(Pompholyxophrys)是有孔虫界下的一种属。泡轮虫属包括生物紫红泡轮虫(Pompholyxophrys punicea)。泡轮虫属则属于核形虫目。
- 支序分类学支序分类学(英语:Cladistics)又称亲缘分支分类学,是一种生物分类的哲学,其指只依据演化树分支的顺序,而不参考形态上的相似性来排列物种。此一学派的主要贡献者一般认为是德国昆虫
- 马尔马拉海马尔马拉海(土耳其语:Marmara Denizi,希腊语:Θάλασσα του Μαρμαρά),又译马摩拉海,古希腊与古罗马时期则称为普罗庞提斯海,是亚洲小亚细亚半岛同欧洲巴尔干半岛之间
- 新异教主义新异教主义(英语:Neopaganism,或称新异教信仰)是多种新兴宗教运动的统称,这类新信仰主要是与基督教开始盛行以前的非基督宗教有关。其中包含了许多不同的思想,包括多神论、泛灵论
- 免疫抑制疗法免疫抑制(英语:immunosuppression)是指对于免疫应答的抑制作用。免疫抑制可由天然或人为因素导致。天然免疫抑制包括天然免疫耐受,机体可能会对自身组织成分不产生免疫应答。人
- 叹词感叹词是用于表达各种感情的词。它与后面句子的其余成分无语法联系。现代汉语的感叹词有“啊”、“哎呀”、“天呀”等。例:古代汉语中常见的感叹词有“呜呼”、“嗟夫”、“
- 尤比克语尤比克语(Ubykh)是西北高加索语支的一个语言,直到1990年代早期为止,一直都为尤比克族人使用。尤比克这个词来自.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL