词嵌入

✍ dations ◷ 2025-06-29 15:23:20 #人工神经网络,计算语言学,自然语言处理

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

词嵌入的方法包括人工神经网络、对词语同现矩阵(英语:co-occurrence matrix)降维、概率模型以及单词所在上下文的显式表示等。

在底层输入中,使用词嵌入来表示词组的方法极大提升了NLP中语法分析器和文本情感分析等的效果。

词嵌入技术起源于2000年。约书亚·本希奥等人在一系列论文中使用了神经概率语言模型(Neural probabilistic language models)使机器“习得词语的分布式表示(learning a distributed representation for words)”,从而达到将词语空间降维的目的。罗维斯(Roweis)与索尔(Saul)在《科学》上发表了用局部线性嵌入(LLE)来学习高维数据结构的低维表示方法。这个领域开始时稳步发展,在2010年后突飞猛进;一定程度上而言,这是因为这段时间里向量的质量与模型的训练速度有极大的突破。

词嵌入领域的分支繁多,有许多学者致力于其研究。2013年,谷歌一个托马斯·米科洛维(Tomas Mikolov)领导的团队发明了一套工具word2vec来进行词嵌入,训练向量空间模型的速度比以往的方法都快。许多新兴的词嵌入基于人工神经网络,而不是过去的n元语法模型和非监督式学习。

阿斯加里(Asgari)和莫夫拉德(Mofrad)提出了生物信息学中生物序列(DNA、RNA和蛋白质等)基于n元语法的词嵌入技术。bio-vectors(BioVec)表示生物序列的统称,protein-vectors(ProtVec)表示蛋白质(氨基酸序列),gene-vectors(GeneVec)表示基因序列。BioVec在蛋白质组学与基因组学的深度学习中有广泛应用。他们提出的结果表明,BioVectors可描述生物化学与生物物理学意义下生物序列的基本模式。

将词嵌入扩展到对句子或整个文本的嵌入后得到的结果称为Thought vectors。部分研究者期望用Thought vectors来提升机器翻译的质量。

使用词嵌入技术的训练软件包括托马斯·米科洛维的Word2vec、斯坦福大学的GloVe(英语:GloVe (machine learning))和Deeplearning4j。主成分分析(PCA)和t-分布邻域嵌入算法(英语:t-distributed stochastic neighbor embedding)(t-SNE)也可以用来对词语空间降维,并实现词嵌入的可视化与词义感应(英语:Word-sense induction)。

相关

  • ULAN艺术家联合名录(英语:The Union List of Artist Names,缩写ULAN)是一个使用受控词表的在线数据库(英语:Online database),目前约有293,000个艺术家的名字和其他信息。ULAN中的名称可
  • 龋齿龋齿(英语:dental caries, tooth decay, cavities, caries,其中caries起源于拉丁文的“腐烂”),俗称蛀牙,指牙齿因细菌活动而造成分解的现象。常见的龋齿菌种是乳酸链球菌(lactococ
  • 居里居里(英语:Curie,符号:Ci),表示单位时间内发生衰变的原子核数。根据衰变,有:− d N N
  • 克拉伦斯·詹森克拉伦斯·伦纳德“凯利”约翰逊(Clarence Leonard "Kelly" Johnson,1910年2月27日-1990年12月21日)是一名美国的系统工程师和航空创新者。他使他自己赢得了许多值得注意的飞机
  • SNPSNP可能指:
  • 大西洋中脊大西洋洋中脊(又称大西洋洋中脊;英文:Mid-Atlantic Ridge)是一个大部分地区位于海底的山脉,横跨大西洋及北冰洋。大西洋洋中脊由北纬87度(距离北极333公里)伸延至南纬54度的布韦岛
  • 玛特玛亚特(Ma'at)又译玛阿特、玛特,古埃及真理和正义的女神,是太阳神拉的女儿,智慧之神托特的妻子。其象征物为鸵鸟羽毛。玛亚特在创世之时就奠定了神的秩序,其名字本身就拥有真理、
  • 克恩县克恩县(英语:Kern County)是一个位于美国加利福尼亚州中央谷地南部的县份。根据2010年人口普查,克恩县共有人口839,631人,其中白人占61.6%、非裔美国人占6.02%、亚裔美国人占3.37
  • 西海卫星发射基地西海卫星发射基地(西海卫星发射场),又叫东仓里发射场,是位于朝鲜平安北道铁山郡的火箭发射场。在2012年4月13日,为庆祝金日成诞晨100周年朝鲜发射光明星3号但失败了,但在同年12月1
  • 深凹杯伞蕈伞是漏斗状深凹杯伞(学名:)是一种担子菌门真菌,隶属于伞菌属。这种真菌分布于北半球地区,为口蘑科植物,也是偶见木栖腐生野菇之一种。该种菌盖类似杯子的菌素生长于夏天与秋天的