词嵌入

✍ dations ◷ 2025-10-07 17:05:52 #人工神经网络,计算语言学,自然语言处理

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

词嵌入的方法包括人工神经网络、对词语同现矩阵(英语:co-occurrence matrix)降维、概率模型以及单词所在上下文的显式表示等。

在底层输入中,使用词嵌入来表示词组的方法极大提升了NLP中语法分析器和文本情感分析等的效果。

词嵌入技术起源于2000年。约书亚·本希奥等人在一系列论文中使用了神经概率语言模型(Neural probabilistic language models)使机器“习得词语的分布式表示(learning a distributed representation for words)”,从而达到将词语空间降维的目的。罗维斯(Roweis)与索尔(Saul)在《科学》上发表了用局部线性嵌入(LLE)来学习高维数据结构的低维表示方法。这个领域开始时稳步发展,在2010年后突飞猛进;一定程度上而言,这是因为这段时间里向量的质量与模型的训练速度有极大的突破。

词嵌入领域的分支繁多,有许多学者致力于其研究。2013年,谷歌一个托马斯·米科洛维(Tomas Mikolov)领导的团队发明了一套工具word2vec来进行词嵌入,训练向量空间模型的速度比以往的方法都快。许多新兴的词嵌入基于人工神经网络,而不是过去的n元语法模型和非监督式学习。

阿斯加里(Asgari)和莫夫拉德(Mofrad)提出了生物信息学中生物序列(DNA、RNA和蛋白质等)基于n元语法的词嵌入技术。bio-vectors(BioVec)表示生物序列的统称,protein-vectors(ProtVec)表示蛋白质(氨基酸序列),gene-vectors(GeneVec)表示基因序列。BioVec在蛋白质组学与基因组学的深度学习中有广泛应用。他们提出的结果表明,BioVectors可描述生物化学与生物物理学意义下生物序列的基本模式。

将词嵌入扩展到对句子或整个文本的嵌入后得到的结果称为Thought vectors。部分研究者期望用Thought vectors来提升机器翻译的质量。

使用词嵌入技术的训练软件包括托马斯·米科洛维的Word2vec、斯坦福大学的GloVe(英语:GloVe (machine learning))和Deeplearning4j。主成分分析(PCA)和t-分布邻域嵌入算法(英语:t-distributed stochastic neighbor embedding)(t-SNE)也可以用来对词语空间降维,并实现词嵌入的可视化与词义感应(英语:Word-sense induction)。

相关

  • 乳腺发育乳腺发育主要是在出生后,在青春期时,女性乳腺中会形成小管及分支,这建立了从乳头开始,类似树的网络。在发育时,乳腺上皮细胞持续的产生,由少见的上皮细胞维护,配成了乳腺祖(mammary
  • 纺织品梭织(英语:Weaving)指将纱线经纬交错织成布料的方法。(台湾则称平织布或平行织品)织物(英语:Woven fabric),指通过经线与纬线交错织成的材料,如布、丝绸等,又合称为布。在某些场合下,
  • 美国犹太大学美国犹太大学(American Jewish University)是位于美国加利福尼亚州洛杉矶贝尔艾尔(英语:Bel Air, Los Angeles)一所私立犹太人大学,但并非教会大学。《美国新闻与世界报道》 并未
  • Yukon育空(英语、法语:Yukon)是加拿大三个地区/领地之一,位于加拿大的西北方。1898年6月13日,育空正式加入加拿大联邦。根据2016年的人口普查,育空人口有35,874人,其中25,085人,70%的人居
  • 西葫芦翠玉瓜,又名西葫芦、栉瓜(学名:Cucurbita pepo var. cylindrica),是美洲南瓜(学名:Cucurbita pepo)的人工栽培品种,果实供食用。外型特色是顶部原本跟茎相连的切面有星星形状。台湾称
  • 乔治·H·希钦斯乔治·赫伯特·希钦斯(英语:George Herbert Hitchings,1905年4月18日-1998年2月27日),美国医生和药理学家。1988年,他与詹姆士·W·布拉克和格特鲁德·B·埃利恩一同夺得诺贝尔生理
  • 男性乳癌男性乳癌(男性乳房肿瘤)是一种相对罕见的男性癌症,此疾病源自于乳房。由于该疾病与女性乳癌之病变相似,因此该病的诊断与治疗依靠的是女性乳癌患者所累积的经验。最宜治疗方式目
  • 古希亚清真寺古希亚清真寺(孟加拉语:বাইতুল আমান জামে মসজিদ)是孟加拉国巴里萨尔专区巴里萨尔市瓦齐尔普尔乌帕齐拉的一个清真寺。
  • 天主教韦尔瓦教区天主教韦尔瓦教区(拉丁语:Dioecesis Onubensis;西班牙语:Diócesis de Huelva)是罗马天主教一个教区,位于西班牙韦尔瓦省首府韦尔瓦,属塞维利亚总教区。教区于1953年10月22日成立,19
  • 艾奥瓦州际铁路艾奥瓦州际铁路(Iowa Interstate Railroad,AAR记号:IAIS)是美国的二级铁路之一,位于美国中部,现为铁路发展公司(Railroad Development Corporation)所经营。该铁路于1984年11月2日组