词嵌入

✍ dations ◷ 2025-09-10 03:19:28 #人工神经网络,计算语言学,自然语言处理

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

词嵌入的方法包括人工神经网络、对词语同现矩阵(英语:co-occurrence matrix)降维、概率模型以及单词所在上下文的显式表示等。

在底层输入中,使用词嵌入来表示词组的方法极大提升了NLP中语法分析器和文本情感分析等的效果。

词嵌入技术起源于2000年。约书亚·本希奥等人在一系列论文中使用了神经概率语言模型(Neural probabilistic language models)使机器“习得词语的分布式表示(learning a distributed representation for words)”,从而达到将词语空间降维的目的。罗维斯(Roweis)与索尔(Saul)在《科学》上发表了用局部线性嵌入(LLE)来学习高维数据结构的低维表示方法。这个领域开始时稳步发展,在2010年后突飞猛进;一定程度上而言,这是因为这段时间里向量的质量与模型的训练速度有极大的突破。

词嵌入领域的分支繁多,有许多学者致力于其研究。2013年,谷歌一个托马斯·米科洛维(Tomas Mikolov)领导的团队发明了一套工具word2vec来进行词嵌入,训练向量空间模型的速度比以往的方法都快。许多新兴的词嵌入基于人工神经网络,而不是过去的n元语法模型和非监督式学习。

阿斯加里(Asgari)和莫夫拉德(Mofrad)提出了生物信息学中生物序列(DNA、RNA和蛋白质等)基于n元语法的词嵌入技术。bio-vectors(BioVec)表示生物序列的统称,protein-vectors(ProtVec)表示蛋白质(氨基酸序列),gene-vectors(GeneVec)表示基因序列。BioVec在蛋白质组学与基因组学的深度学习中有广泛应用。他们提出的结果表明,BioVectors可描述生物化学与生物物理学意义下生物序列的基本模式。

将词嵌入扩展到对句子或整个文本的嵌入后得到的结果称为Thought vectors。部分研究者期望用Thought vectors来提升机器翻译的质量。

使用词嵌入技术的训练软件包括托马斯·米科洛维的Word2vec、斯坦福大学的GloVe(英语:GloVe (machine learning))和Deeplearning4j。主成分分析(PCA)和t-分布邻域嵌入算法(英语:t-distributed stochastic neighbor embedding)(t-SNE)也可以用来对词语空间降维,并实现词嵌入的可视化与词义感应(英语:Word-sense induction)。

相关

  • 锁骨锁骨 (英文:Clavicle;拉丁文:Clavicula)是爬行动物、鸟类和哺乳类动物肩胛带三骨之一。硬骨鱼身上已经有其痕迹,但两栖动物却没有锁骨。除了锁骨,还有喙状骨和肩胛骨,共同组成肩胛带
  • 派生派生变化,又译作衍生变化,(英语:Morphological derivation)在语言学中指的是借由改变原词的句法范畴(英语:Syntactic category)和/或增加实质性而非语法性的含意,从而使现有单词产生新
  • 雷尼镍雷尼镍(英语:Raney Nickel)又译兰尼镍,是一种由带有多孔结构的镍铝合金的细小晶粒组成的固态异相催化剂,它最早由美国工程师莫里·雷尼(Murray Raney)在植物油的氢化过程中,作为催化
  • 胃脏胃是人和脊椎动物消化系统的一部分,是贮藏和消化食物的器官。胃上接食道,下接十二指肠。位置大约位于人体的左上腹,肋骨以下。胃主要将大块食物研磨成小块,将食物中的大分子降解
  • σ键σ键(西格马键) 是价键理论和分子轨道理论中一种化学键的名称。由两个相同或不相同的原子轨道沿轨道对称轴方向相互重叠而形成的共价键,叫做σ键。一般“单键”属于σ键,比如C
  • 棕色环实验硝酸盐试验(英语:Nitrate test)指的是用于确定溶液中是否存在硝酸根离子的化学测试。由于几乎所有的硝酸盐都可溶于水;因此与其他阴离子的测试相比,通过湿法测试硝酸盐较为困难。
  • 大南汽车大南汽车股份有限公司(英文:Danan Bus Company, Ltd.),简称:大南汽车,主要经营台北市联营公车与新北市公车,1969年8月由裕隆汽车集团集资成立,目前与欣欣客运同属行政院国军退除役官
  • 科孚事件科孚事件(Corfu incident)是1923年墨索里尼统治下的意大利王国和希腊王国之间发生的一起外交事件。当年一名意大利将军恩里科·泰利尼(Enrico Tellini)在希腊被杀,意国即炮轰并占
  • 维诺巴·巴韦巴韦(马拉提语:विनोबा भावे,Vinoba Bhave;本名为Vinayak Narahari Bhave,1895年9月11日-1982年11月15日),生于印度赖加德县,知名修行者。他追随甘地,为对抗英国殖民印度之印
  • 西安路街道西安路街道,是中华人民共和国四川省成都市金牛区下辖的一个乡镇级行政单位。2019年12月,金牛区调整部分街道行政区划,撤销人民北路街道,将原人民北路街道花牌坊社区、金仙桥社区