词嵌入

✍ dations ◷ 2025-08-13 02:19:19 #人工神经网络,计算语言学,自然语言处理

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

词嵌入的方法包括人工神经网络、对词语同现矩阵(英语:co-occurrence matrix)降维、概率模型以及单词所在上下文的显式表示等。

在底层输入中,使用词嵌入来表示词组的方法极大提升了NLP中语法分析器和文本情感分析等的效果。

词嵌入技术起源于2000年。约书亚·本希奥等人在一系列论文中使用了神经概率语言模型(Neural probabilistic language models)使机器“习得词语的分布式表示(learning a distributed representation for words)”,从而达到将词语空间降维的目的。罗维斯(Roweis)与索尔(Saul)在《科学》上发表了用局部线性嵌入(LLE)来学习高维数据结构的低维表示方法。这个领域开始时稳步发展,在2010年后突飞猛进;一定程度上而言,这是因为这段时间里向量的质量与模型的训练速度有极大的突破。

词嵌入领域的分支繁多,有许多学者致力于其研究。2013年,谷歌一个托马斯·米科洛维(Tomas Mikolov)领导的团队发明了一套工具word2vec来进行词嵌入,训练向量空间模型的速度比以往的方法都快。许多新兴的词嵌入基于人工神经网络,而不是过去的n元语法模型和非监督式学习。

阿斯加里(Asgari)和莫夫拉德(Mofrad)提出了生物信息学中生物序列(DNA、RNA和蛋白质等)基于n元语法的词嵌入技术。bio-vectors(BioVec)表示生物序列的统称,protein-vectors(ProtVec)表示蛋白质(氨基酸序列),gene-vectors(GeneVec)表示基因序列。BioVec在蛋白质组学与基因组学的深度学习中有广泛应用。他们提出的结果表明,BioVectors可描述生物化学与生物物理学意义下生物序列的基本模式。

将词嵌入扩展到对句子或整个文本的嵌入后得到的结果称为Thought vectors。部分研究者期望用Thought vectors来提升机器翻译的质量。

使用词嵌入技术的训练软件包括托马斯·米科洛维的Word2vec、斯坦福大学的GloVe(英语:GloVe (machine learning))和Deeplearning4j。主成分分析(PCA)和t-分布邻域嵌入算法(英语:t-distributed stochastic neighbor embedding)(t-SNE)也可以用来对词语空间降维,并实现词嵌入的可视化与词义感应(英语:Word-sense induction)。

相关

  • 放射性核素放射性同位素(英语:radionuclide,radioactive nuclide 或 radioactive isotope),是指原子核不稳定、具有放射性的核素。每种元素的原子都有着很多种同位素,同种元素的同位素的原子
  • 铰剪剪刀,古称铰剪或铰刀,粤语称鉸剪,闽语称铰刀,是一种剪裁物件的工具,有双刀刃。剪刀是约公元前1500年时由古埃及人发明的,最早在古埃及人的废墟中找到,这些剪刀都是用某一种金属制成
  • MNS血型系统MNS血型系统(英文:MNS antigen system),亦称MNS抗原系统或MNSs血型系统,是人类血型系统之一。其编码基因位于4号染色体上。MNS血型系统包括超过40种抗原,其中四种最为重要,分别称为
  • 黛米·洛瓦托德梅特里亚·迪芳·洛瓦托(英语:Demetria Devonne Lovato,1992年8月20日-),是一名美国歌手、词曲作家、演员及电视名人。她因主演迪士尼频道作品《摇滚夏令营》、《公主保卫战(英语
  • 以色列十二支派以色列十二支派是由以色列第三代始祖雅各的12个儿子发展起来,其中第11子约瑟后来成为埃及首相,成为极为重要的一支派而得到了两份家产,分别由其子以法莲(Ephraim)和玛拿西(Manasse
  • 南康德站南康德站(韩语:남강덕역)是朝鲜民主主义人民共和国咸镜北道清津市松坪区域的一个铁路车站,属于平罗线和康德线。平罗线康德线
  • NMNAT1NMNAT1是烟酰胺单核苷酸腺苷转移酶1,是烟酰胺腺嘌呤二核苷酸生物合成中一种关键的酶,在人类中由基因编码。除了脾脏,NMNAT1在人体其他组织器官中均有表达。小鼠中基因的缺失导
  • avex traxavex trax(日语:エイベックス トラックス)是日本爱贝克思集团属下的一间唱片公司,成立于1990年,是爱贝克思的首间唱片公司。名字的trax取自tracks(音轨)。松浦胜人(日语:松浦勝人)在日
  • 布莱恩·迪岑布莱恩·迪岑(英语:Brian Dietzen,1977年11月14日-)是美国的一位演员。自从2004年以来,他就开始出演电视剧NCIS犯罪现场。在2012年,他升格成为这部剧集的常规角色。他也出演过一些
  • 若泽·爱德华多·多斯桑托斯若泽·爱德华多·多斯·桑托斯(葡萄牙语:José Eduardo dos Santos,1942年8月28日-),安哥拉军事强人。他曾在苏联阿塞拜疆学习石油化工专业,毕业后继续留在苏联,接受通信和雷达领域