首页 >
潜在语义学
✍ dations ◷ 2025-11-28 11:17:15 #潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。隐含语义索引是一种以向量空间模型为基底的资讯检索技术,常以字词-文件矩阵表示字词与文件之间的关联;而其多以行代表字词〈term〉,列代表文件〈document〉。而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在某个文件中的重要性,与该字词在该文件中出现的次数成正比,与其在所有文件中出现的次数成反比。而这个字词-文件矩阵本身也代表着一个标准的语义模组,因为数学矩阵的格式并不是经常的被使用,所以不会太特别的注明其为一个矩阵的型态。关于隐含语义索引的其他应用:同义词和多义性是自然语言处理中最基本的问题。同义现象是指不同的词语表示相同的的意思。因此,在搜索引擎不会返回一个文档,即使它与该查询是相关的,只是由于它不包含查询关键词中的词语。例如,查询“doctors”(医生)时,不会返回包含“physicians”(内科医生)的文档,即使它们的意思相同。多义现象是指一个词语含有多种意思。因此,查询的结果可能返回许多不相关的文档,只是由于它们包含了查询关键词中的词语。例如,植物学家和计算机专家在查询同一个关键词“树”的时候,它们希望得到的结果是完全不同的。当生成了词汇-文档矩阵后,LSA提供了一种对它的低维近似(可以通过对字词—文档矩阵的奇异值分解(SVD)来实现)。做这种近似有以下几种原因:奇异值分解(svd)是一种典型的使用大型矩阵的运算方法,会占用较大的存储空间,可以通过一种类似神经网络的计算方法来大大降低这一计算对内存的占用。现在已经有一种快速的,占用内存较低的,计算大型矩阵的svd算法,见应用文献【3】.可以使用MATLAB和Python来实现这一算法。
相关
- 词位词位(英语:lexeme)是决定词义的基本抽象单位,构成一组通过屈折变化相联系的词语的基础。 词位也是词法学分析中,指代相同词根、不同形式的一组单词的单位。词元(英语:Lemma (morpho
- 匹鲁卡品匹鲁卡品(INN:Pilocarpine)是一种药物,又名毛果芸香碱;是从毛果芸香属植物叶中提出的生物碱,是一种胆碱类之副交感神经促进剂,一般用于治疗原发性青光眼及口腔干燥。毛果芸香碱于18
- 降水降水是指在大气中冷凝的水汽以不同方式下降到地球表面的天气现象。大气中的水汽几乎全部集中于对流层中,温度越高,大气可以容纳的水汽含量就越多,反之就越少。一定温度下,当空气
- 放射虫门放射虫门(学名:Radiozoa)又名放线虫,为海中浮游生物,有如球形对称,带有硅壳,壳上有美丽的花纹。身体内有膜质中央囊,囊面穿有许多小孔,将身体分为内外两部分,外部被胶状物质,多有液泡,内
- 副甲状腺甲状旁腺或称甲状旁腺(英语:parathyroid gland)是脊椎动物的一种内分泌腺,主要调节体内的钙和磷代谢。人类和一些真兽类的甲状旁腺与甲状腺有一定解剖学位置关系,在其他动物的甲
- 埃博拉出血热爆发列表此埃博拉出血热爆发列表叙述了埃博拉出血热的历年出现记录。此病于1976年首次现身,并常在非洲撒哈拉以南的地区造成间歇性流行。目前共有5种病毒被国际病毒分类委员会纳入埃
- 弥涅墨斯弥涅墨斯(希腊语:Μίμνερμος,英语:Mimnermus,鼎盛期在前630年-前600年),古希腊哀歌诗人。弥涅墨斯生活在一个战乱时期,当时小亚细亚的爱奥尼亚城邦正在抵抗兴起的吕底亚王
- 采邑制采邑制是欧洲在封建时代,尤其是中世纪早期在西欧地区主要实施的一种土地占有制度。采邑制最初是查理·马特在担任法兰克王国的宫相期间(715年─741年)实施的。以前墨洛温王朝时
- DVD数字多功能影音光盘(英语:Digital Versatile Disc,缩写:DVD)是一种光盘存储媒体,通常用来播放标清(标准解晰度)的电影,高清音质的音乐与大容量存储数据用途。DVD与CD或蓝光光盘(Blu-ra
- 二分法二分法(dichotomy)指的是将一个整体事物分割成两部分。也即是说,这两部分必须是互补事件,即所有事物必须属于双方中的一方,且互斥,即没有事物可以同时属于双方。
