潜在语义学

✍ dations ◷ 2025-12-01 04:13:20 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 磺胺甲磺胺甲
  • 内皮细胞内皮细胞或血管内皮是一薄层的专门上皮细胞,由一层扁平细胞所组成。它形成血管的内壁,是血管管腔内血液及其他血管壁(单层鳞状上皮)的界面。内皮细胞是沿着整个循环系统,由心脏直
  • 学习异常心理学 行为遗传学 生物心理学 心理药物学 认知心理学 比较心理学 跨文化心理学 文化心理学 差异心理学(英语:Differential psychology) 发展心理学 演化心理学 实验心理学
  • 芹苴市1,235,171 population_density_km2 = auto芹苴市(越南语:Thành phố Cần Thơ/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","
  • 心肌梗死的判断心电图(Electrocardiography、ECG 或者 EKG)是一种经胸腔的以时间为单位记录心脏的电生理活动,并通过皮肤上的电极捕捉并记录下来的诊疗技术。这是一种无创性的记录方式。Elect
  • 鲁世德阿布·瓦利德·穆罕默德·伊本·阿马德·伊本·鲁世德(阿拉伯语:أبو الوليد محمد ابن احمد ابن رشد‎,1126年-1198年12月10日),又译为阿威罗伊、亚维侯
  • 工程索引工程索引(EI)是由美国工程信息公司(Engineering information Inc.)编辑出版,历史上最悠久的一部大型综合性检索工具。EI在全球的学术界、工程界、信息界中享有盛誉,是科技界共同
  • 生命周期产品生命周期管理(Product Lifecycle Management,简称PLM)是覆盖了从产品诞生到消亡的产品生命周期全过程的、开放的、互操作的一整套应用方案。为了使产品及时上市,打败竞争者
  • 原癌基因癌基因,也称为致癌基因(英语:Oncogene)是一类能使正常细胞转化为癌细胞的基因。一般地,癌基因是功能出现异常的原癌基因(英语:Proto-oncogene)。原癌基因一般与细胞的增殖生长相关,功
  • 脊柱脊柱(拉丁语:Columna vertebralis、英语:vertebral column、backbone、spine)是脊椎动物位于背侧的支撑性中轴骨骼。人类的脊柱由23-24块脊椎骨(拉丁语:Vertebrae)和中间起缓冲作用