词嵌入

✍ dations ◷ 2025-11-26 02:42:34 #人工神经网络,计算语言学,自然语言处理

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

词嵌入的方法包括人工神经网络、对词语同现矩阵(英语:co-occurrence matrix)降维、概率模型以及单词所在上下文的显式表示等。

在底层输入中,使用词嵌入来表示词组的方法极大提升了NLP中语法分析器和文本情感分析等的效果。

词嵌入技术起源于2000年。约书亚·本希奥等人在一系列论文中使用了神经概率语言模型(Neural probabilistic language models)使机器“习得词语的分布式表示(learning a distributed representation for words)”,从而达到将词语空间降维的目的。罗维斯(Roweis)与索尔(Saul)在《科学》上发表了用局部线性嵌入(LLE)来学习高维数据结构的低维表示方法。这个领域开始时稳步发展,在2010年后突飞猛进;一定程度上而言,这是因为这段时间里向量的质量与模型的训练速度有极大的突破。

词嵌入领域的分支繁多,有许多学者致力于其研究。2013年,谷歌一个托马斯·米科洛维(Tomas Mikolov)领导的团队发明了一套工具word2vec来进行词嵌入,训练向量空间模型的速度比以往的方法都快。许多新兴的词嵌入基于人工神经网络,而不是过去的n元语法模型和非监督式学习。

阿斯加里(Asgari)和莫夫拉德(Mofrad)提出了生物信息学中生物序列(DNA、RNA和蛋白质等)基于n元语法的词嵌入技术。bio-vectors(BioVec)表示生物序列的统称,protein-vectors(ProtVec)表示蛋白质(氨基酸序列),gene-vectors(GeneVec)表示基因序列。BioVec在蛋白质组学与基因组学的深度学习中有广泛应用。他们提出的结果表明,BioVectors可描述生物化学与生物物理学意义下生物序列的基本模式。

将词嵌入扩展到对句子或整个文本的嵌入后得到的结果称为Thought vectors。部分研究者期望用Thought vectors来提升机器翻译的质量。

使用词嵌入技术的训练软件包括托马斯·米科洛维的Word2vec、斯坦福大学的GloVe(英语:GloVe (machine learning))和Deeplearning4j。主成分分析(PCA)和t-分布邻域嵌入算法(英语:t-distributed stochastic neighbor embedding)(t-SNE)也可以用来对词语空间降维,并实现词嵌入的可视化与词义感应(英语:Word-sense induction)。

相关

  • 强心甙类强心苷,属于一种历史悠久的经典的强心药。 药物有
  • 西伯利亚鞑靼语西伯利亚鞑靼语是一种突厥语族的语言,为西伯利亚鞑靼人的母语,分布在俄罗斯西伯利亚西南部的鄂木斯克州、秋明州、新西伯利亚州、托木斯克州、科麦罗沃州、斯维尔德洛夫斯克州
  • 泉州电视台闽南语频道泉州广播电视台闽南语频道(英语:Quanzhou Television Minnan Channel),又名“泉州台四套”、“泉视四套”,是中国大陆第一个全部采用闽南语播出的综合频道,以泉州话节目为主、以闽
  • 鳟属约38种,详见内文鳟属(学名:Salmo),又名鲑属,是辐鳍鱼纲鲑形目鲑科的一属,包括常见的大西洋鲑(S. salar)及鳟(S. trutta)。鳟属是大西洋鱼类,主要自然分布于欧洲水域,其中大西洋鲑及鳟的分
  • 堪达哈省坎大哈省(波斯语:د کابل ولايت‎)是阿富汗34个省份之一,位于阿富汗南部,邻近巴基斯坦。西部与赫尔曼德省接壤,北部与乌鲁兹甘省接壤,东部与扎布尔省接壤。坎大哈省省会是
  • 石棺切尔诺贝利核电厂的石棺或防护结构(乌克兰语:Об'єкт "Укриття")是一个覆盖在切尔诺贝利核电厂4号核反应堆上的巨大的钢筋混凝土结构。它的目的是通过覆盖来保护爆
  • 硝酰氟硝酰氟(化学式:NO2F)是最常见的硝酰盐之一。它首先由莫瓦桑于1905年制得。硝酰氟与硝酸根离子是等电子体,也为平面结构。通常状态下为无色气体,共价性较强,熔点-166°C,沸点-72.5°
  • 周期彗星列表本条目列出太阳系内经国际天文联会给予永久编号的周期彗星。截至2014年末,太阳系内拥有永久编号的周期彗星共有314颗。周期彗星指的是任何轨道周期小于200年,或其两次通过近日
  • 王向远王向远(1962年10月1日-),山东省临沂市人,中华人民共和国著名著作家、翻译家,东方文学与比较文学学者。1984年本科毕业于曲阜师范学院,1987年在北京师范大学获硕士学位并留校任教,199
  • 中国番茄黄化曲叶病毒中国番茄黄化曲叶病毒(Tomato yellow leaf curl China virus、TYLCCV)是双子病毒科(英语:Geminiviridae)菜豆金色花叶病毒属(英语:Begomovirus)的一种病毒,包含25个分离株,可感染番茄