潜在语义学

✍ dations ◷ 2025-07-19 06:42:01 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • 金属工金属加工简称金工,是一种把金属物料加工生成独立零件、组件、或大型结构的工艺技术。该术语涵盖从大型船舶和桥梁到精密发动机部件和精美首饰的广泛工作。 因此,它包括相应的
  • 老普林尼盖乌斯·普林尼·塞孔杜斯(拉丁语:Gaius Plinius Secundus,23年-79年8月24日),常称为老普林尼或大普林尼,古罗马作家、博物学者、军人、政治家,以《自然史》(一译《博物志》)一书留名
  • non-infective endocarditis心内膜炎(英语:Endocarditis)是心脏的心内膜(心腔中的最深层的组织)引发的炎症,通常和心脏瓣膜有关。此外,心内膜炎也可能与室间隔(英语:interventricular septum)、腱索(英语:chordae t
  • VIIAbr /17固体、 液体、 气体卤素是指在元素周期表中同属第17族(旧称ⅦA族)的六个元素:氟(F)、氯(Cl)、溴(Br)、碘(I)、砹(At)、(Ts),其中砹和具有极高的放射性,且属于人造元素。卤素是一类化学性质非
  • 磺胺噻唑磺胺噻唑是一种磺胺类药物,其INN名称是“Sulfathiazole”。该药物已存在不良反应更小的替代品,目前主要用于与磺胺醋酰和磺胺苯甲酰胺(英语:sulfabenzamide)联用以治疗阴道感染或
  • 马其顿王国马其顿王国(古希腊语:Μακεδονία)是古希腊西北部的王国。其史上最辉煌的时期即为亚历山大大帝开创的亚历山大帝国(马其顿帝国)。亚历山大帝国是历史上继波斯帝国之后第二
  • ACal/甲状腺髓质癌甲状腺髓质癌(Medullary thyroid cancer,简称MTC)为一种发源自滤泡旁细胞(C细胞)的甲状腺癌,可以分泌降钙素。甲状腺髓质癌为第三常见的甲状腺癌症,占甲状腺癌总数的3%。大约四分之
  • 上颚上颌骨(maxilla),又称车颔骨,是成对的联合形成口上部的骨。除了下颌骨外,脸部的所有骨都与它形成关节。上颌骨可以分为体部、齿槽突、腭突、额突和颧突。头颅。上颌骨的位置(显示
  • 格林-巴利综合征古兰-巴雷综合征(Guillain-Barré syndrome,缩写为GBS),又称基连巴瑞症候群、脱髓鞘多发性神经炎、吉兰-巴雷综合征、古兰-巴雷综合征。是一种因免疫系统损害周围神经系统,而导致的
  • 仡央语族仡央语群是侗台语系的一支,又称Kra。分布在中国贵州省中部、西部、云南省东部的文山壮族苗族自治州、广西西部和越南北部边境地区。使用人数很少,使用仡央语族的总人数约2万人