首页 >
潜在语义学
✍ dations ◷ 2025-04-24 22:48:56 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。
相关
- 霉浆菌性肺炎肺炎支原体(Mycoplasma pneumoniae、霉浆菌性肺炎)是一种可导致肺炎的支原体细菌,也有机会导致冷凝集素症(英语:cold agglutinin disease)。这种由肺炎支原体引起的肺炎,又称作霉浆
- 亚历山大·弗莱明亚历山大·弗莱明爵士,FRS(Sir Alexander Fleming,1881年8月6日-1955年3月11日),苏格兰生物学家、药学家、植物学家。1923年发现溶菌酶,1928年发现青霉素,这一发现开创了抗生素领域,
- 香菇香菇(学名:Lentinula edodes)又叫做冬菇、北菇、香蕈、厚菇、薄菇、花菇、椎茸,为小皮伞科香菇属的物种,是一种食用菇类。一般食用的成员为,鲜香菇脱水即成干香菇,而且会产生浓郁特
- 国家政策研究基金会财团法人国家政策研究基金会(简称国政基金会)是一个中华民国台湾智库,原为1993年连战担任行政院院长时以个人名义成立之私人智囊机构,后于2000年7月29日扩大为中国国民党的智库:
- 氧化态氧化态(英文:Oxidation State)表示一个化合物中某个原子的氧化程度。形式氧化态是通过假设所有异核化学键都为100%离子键而算出来的。氧化态用阿拉伯数字表示,可以为正数、负数
- 耳鼻喉/头颈外科耳鼻喉科学(Otorhinolaryngology /oʊtoʊˌraɪnoʊˌlærənˈɡɒlədʒi/;亦称为:otolaryngology-head and neck surgery)是一门医学专科,专门研究耳、鼻、喉病变的诊断及治
- 萨洛 (塔拉戈纳省)萨洛(加泰罗尼亚语:Salou),是西班牙加泰罗尼亚塔拉戈纳省的一个市镇。总面积15平方公里,总人口14164人(2001年),人口密度944人/平方公里。
- 混沌传统宗教仪式:神明秘密社会:混沌,又写作浑沌,指混乱而没有秩序的状态。在哲学中,混沌指虚空,或者没有结构的均匀状态。在非线性科学中,“混沌”这个词的含义和本意相似但又不完全一
- 复句复句是句子结构的一种,包含两个或两个以上的句子。在讨论复句的时候,这些构成复句的单一句子被叫做分句。跟单句相比,复句具有以下四个特点。复句可被分为8种,类别如下:用词:“也
- 印刷体印刷体,指印刷时用的字体或类似印刷时用的字体。英文印刷体有Times New Roman等,中文印刷体有宋体等。印刷体横平竖直,字符框架搭得很规范。印刷体主要分为衬线体和非衬线体两