潜在语义学

✍ dations ◷ 2025-04-03 21:17:00 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。

相关

  • PP00-P04 胎儿和新生儿受母体因素及妊娠、产程和分娩并发症的影响P05-P08 与妊娠期长短和胎儿生长有关的疾患P10-P15 产伤P20-P29 特发于围生期的呼吸和心血管疾患P35-P39 特
  • 沿岸流沿岸流(英语:longshore current)是指波浪推向岸边,有时波峰列(波列)并不平行海岸线,两者形成的夹角,一波一波的波浪推动成一股贴岸而行的海流。近岸水流的流动方向与碎波区底床地形.
  • 血压计血压计是用于测量血压的医疗仪器。现在常见的血压计设计有水银柱式血压计、电子血压计和气压表式血压计(表型气压式血压计)三种。电子血压计除了能显示血压读数外,亦有提供脉搏
  • 根肿黑粉菌门根肿黑粉菌属 Entorrhiza Talbotiomyces根肿黑粉菌纲(学名:Entorrhizomycetes)是担子菌门黑粉菌亚门下的一个纲。该纲仅含一个目(根肿黑粉菌目,Entorrhizales),该目下也仅含一个科(
  • 二磷酸腺苷二磷酸腺苷(英语:adenosine diphosphate,缩写:ADP)是一种核苷酸。它是在代谢中重要的有机化合物,并是在活细胞中的能量流动是至关重要的。一个ADP分子包括三个重要的结构组件:一个
  • 山梨糖山梨糖(英语:Sorbose)在分类上属于己糖与酮糖,为D-果糖二号与三号位碳所对应的差向异构体。易溶于水,微溶于乙醇和异丙醇,不溶于乙醚、丙酮、氯仿和苯。存在于植物果实中。其甜度
  • 绪斯同骑枪绪斯同(希腊语 ξυστόν),是古代希腊骑兵所用来戳击的骑枪。长约3.5~4.25米,可能因为过长的原因需要两手持用,从庞贝城所发掘出来的亚历山大马赛克镶嵌画显示,绪斯同骑枪也可
  • 阿尔哈拉克阿尔哈拉克(西班牙语:Aljaraque),是西班牙安达卢西亚自治区韦尔瓦省的一个市镇。总面积34平方公里,总人口12026人(2001年),人口密度354人/平方公里。
  • 横结肠横结肠是结肠的一部分,位于腹腔上部,前与升结肠以直角向左侧水平移行,在脾脏下方以直角转弯往下接于降结肠。横结肠前部由大网膜悬挂在胃下,后方则由横结肠系膜与腹后壁相连。
  • 施氏食狮史《施氏食狮史》是一篇由中国语言学家赵元任所写的同音文章,全文共92字(连标题97字),每字之普通话拼音都为shi(注音符号为ㄕ),只是声调相异。石室诗士施氏,嗜狮,誓食十狮。这篇文言文