首页 >
潜在语义学
✍ dations ◷ 2025-11-29 13:20:00 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。
相关
- 外阴炎外阴炎是指外阴皮肤、黏膜炎症性病变,由病原体或刺激性物质刺激引起。表现为瘙痒、疼痛、烧灼感,活动、性交、大小便时感觉不适。外阴炎包括有非特异行外阴炎、前庭大腺炎、前
- 脑内出血颅内出血(ICH)是头部颅骨内出血。这种情况可能导致血液或血块压迫到脑神经造成脑神经坏死。颅内出血包含:脑室内出血(英语:intraventricular bleed)和脑实质性出血(英语:intraparenc
- 糖糖(sugar)泛指各种可食用的带有甜味的晶体,有甜味、短链、可溶于水的有机化合物,许多会用在食品。糖在有机化学中属于糖类,由碳、氢及氧三种原子组成。单糖是结构较简单的糖,包括
- 灵长目源性灵长目(学名:Primates)是哺乳纲的一个目,在生物分类学上,可以再细分原猴及简鼻亚目(包括人)。灵长目的始祖住在热带雨林的树上,许多灵长目的特征表现了其适应三维立体环境的能力,大部
- 高通滤波器高通滤波器(英语:High-pass filter)是容许高频信号通过、但减弱(或减少)频率低于截止频率信号通过的滤波器。对于不同滤波器而言,每个频率的信号的减弱程度不同。它有时被称为低频
- Köln科隆(德语:Köln, listen 帮助·信息;1919年前德语也拼写为Cöln,科隆语:Kölle,法语:Cologne),是德国第四大城市,是北威州最大的城市,亦是德国内陆最重要的港口之一,莱茵地区的经济文
- 办公场所办公室(office),又称写字楼,是一种让人们在其中办公(工作)的场所,通常是房间的形态,但随着电脑与网络的发达,也渐渐出现不需要实体空间的虚拟办公室(Virtual Office)。内部由办公室所组
- 亮氨酸亮氨酸(英文:Leucine,简写为 Leu 或 L)是二十种基本氨基酸的其中一种,和异亮氨酸互为同分异构体。在营养学上,亮氨酸是人体的必需氨基酸。亮氨酸是在蛋白质内最常出现的氨基酸,而且
- 疏松结缔组织蜂窝组织(Areola tissue),或称为疏松结缔组织(loose connective tissue),是人体内最常见的一种结缔组织。疏松结缔组织主要由大量的细胞外基质(主要由成纤维细胞分泌的纤维组成)和少
- 藏缅语族藏缅语族是分布于中国西南部、印度东北部、尼泊尔、巴基斯坦、不丹、缅甸、泰国、越南等地的一组语言。根据民族语网站2009年的资料,藏缅语族共包含有435种语言,其中主要的语
