首页 >
潜在语义学
✍ dations ◷ 2025-12-08 10:33:22 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。
相关
- 甲硝唑甲硝唑(Metronidazole,MNZ),目前多以咪唑尼达(Flagyl)的商品名流通,是一种抗生素和抗原虫剂(英语:antiprotozoal medication)。常单独或和其他抗生素一起使用,作为治疗骨盆腔炎、心内膜
- 纤维杆菌门纤维杆菌门(Fibrobacteres)是一类革兰氏阴性细菌,只包括纤维杆菌属(Fibrobacter)一个属。纤维杆菌属生活在反刍动物的瘤胃中,在其细胞周质中有纤维素酶可以分解纤维素使动物能够吸
- 新石器时代新石器时代(Neolithic),在考古学上是石器时代的最后一个阶段,以磨制石器和制作陶器为主,大约从1万年前开始,结束时间从距今10000多年至2000多年不等。不过,在有些地区,如中美洲,在西
- 血液透析血液透析(英语:Hemodialysis),是将血液抽出体外,经过血液透析机的渗透膜,清除血液中的新陈代谢废物和杂质后,再将已净化的血液输送回体内,俗称“洗肾”及“洗血”。血液透析可用于肾
- 雀麦花叶病毒科雀麦镶嵌病毒科(Bromoviridae)是病毒的一个科,包括下面五个属
- 栗子栗是壳斗科栗属(学名:Castanea)中的乔木或灌木总称,大约有八九种,原生于北半球温带地区,大部分种类栗树都是20-40米高的落叶乔木,只有少数是灌木。各种栗树都结可以食用的坚果,单叶,
- 苏丹红苏丹红是一种亲脂性偶氮化合物,作为人工合成的红色工业染料,被广泛用于如溶剂、油、蜡、汽油的增色以及鞋、地板等增光方面。苏丹红主要包括Ⅰ、Ⅱ、Ⅲ和Ⅳ四种类型。进入体内
- 失血出血是指血液从血管或心脏外出至组织间隙、体腔或身体表面。根据出血原因可分为两种:心脏或血管壁破裂的出血称为破裂性出血;毛细血管和细静脉壁通透性增高的出血称为漏出性出
- 唐纳德·威尼科特唐诺·伍兹·温尼考特(Donald Woods Winnicott,1896年4月7日-1971年1月28日),英国儿童心理学家、精神分析学家,对客体关系理论有一定贡献。他在40年的时间里研究人类成长,希望阐明
- 常态化遗传漂变,或基因漂变(genetic drift),是指种群中基因库在代际发生随机改变的一种现象。由于任何一个个体的生存与繁殖都受到随机因素影响,繁殖过程可看做一种抽样,子代携带的等位
