首页 >
潜在语义学
✍ dations ◷ 2025-12-01 18:40:40 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。
相关
- 恐慌发作恐慌发作(Panic attack)的意义为患者在强烈恐惧下,表现出一系列的身心症状。(常见换气过度或气喘)当恐慌发作,患者会感受到强烈不适,因此常求助于急诊室。一个人在一生中可能出现极
- 受精卵受精卵(zygote、合子)在发育生物学中用来描述生物的第一阶段,此时它只是一个单细胞。这个词也会被较为宽松地运用于经过最初几分裂后的细胞,虽然严格地讲这一阶段应称为卵裂球(分
- 日本菜日本料理泛指日本的饮食方式,又称日餐、和食(日语:和食/わしょく Washoku ?;此名称更侧重于大和民族的饮食),是日本文化重要的一环。“日本料理”在日语解作“日本式烹饪”,但是此
- 霾害霾(英语:haze,又称雾霾、烟霾、烟霞等)是一种由固体颗粒形成的空气污染,其核心物质是空气中悬浮的灰尘颗粒,气象学上称为气溶胶颗粒。霾中含有数百种大气化学颗粒物质,它们在人们毫
- Beclometasone dipropionate贝克每松(Beclometasone dipropionate),是一种类固醇类药物,为一种糖皮质素,常见商品名为Qvar。 此药物作为吸入器的药粉、乳霜、药片以及鼻喷剂。 吸入器药粉常用于治疗长期的气
- 科学哲学科学哲学是20世纪兴起的一个哲学分支,关注科学的基础、方法和含义,主要研究科学的本性、科学理论的结构、科学解释、科学检验、科学观察与理论的关系、科学理论的选择等。该学
- 格里高利圣咏额我略圣咏(拉丁语:Cantus Gregorianus)是西方基督教单声圣歌的主要传统,是一种单声部、无伴奏的天主教会宗教音乐。额我略圣咏主要是在第8世纪和第9世纪,法兰克人到达西欧和中欧
- 真核细胞真核生物(学名:Eukaryota)是其细胞具有细胞核的单细胞生物和多细胞生物的总称,它包括所有动物、植物、真菌和其他具有由膜包裹着的复杂亚细胞结构的生物,而不包括细菌和古菌,因它
- 毒液毒液(英语:venom)是一种由动物分泌出来的毒素,目的是对其他动物造成伤害。不同毒液造成的伤害也会不同;那些会致死的毒液通常会用半数致死量(LD50、LD50 或 LD-50)来测量其毒性。许
- 语言变体语言变体(英语:Language Variety),是指语言在系统和在条理上相互区分的各种形式。而方言是散文风格、语言风格更广泛的概念。从不同角度定义的方言:
