词嵌入

✍ dations ◷ 2024-12-22 23:31:08 #人工神经网络,计算语言学,自然语言处理

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

词嵌入的方法包括人工神经网络、对词语同现矩阵(英语:co-occurrence matrix)降维、概率模型以及单词所在上下文的显式表示等。

在底层输入中,使用词嵌入来表示词组的方法极大提升了NLP中语法分析器和文本情感分析等的效果。

词嵌入技术起源于2000年。约书亚·本希奥等人在一系列论文中使用了神经概率语言模型(Neural probabilistic language models)使机器“习得词语的分布式表示(learning a distributed representation for words)”,从而达到将词语空间降维的目的。罗维斯(Roweis)与索尔(Saul)在《科学》上发表了用局部线性嵌入(LLE)来学习高维数据结构的低维表示方法。这个领域开始时稳步发展,在2010年后突飞猛进;一定程度上而言,这是因为这段时间里向量的质量与模型的训练速度有极大的突破。

词嵌入领域的分支繁多,有许多学者致力于其研究。2013年,谷歌一个托马斯·米科洛维(Tomas Mikolov)领导的团队发明了一套工具word2vec来进行词嵌入,训练向量空间模型的速度比以往的方法都快。许多新兴的词嵌入基于人工神经网络,而不是过去的n元语法模型和非监督式学习。

阿斯加里(Asgari)和莫夫拉德(Mofrad)提出了生物信息学中生物序列(DNA、RNA和蛋白质等)基于n元语法的词嵌入技术。bio-vectors(BioVec)表示生物序列的统称,protein-vectors(ProtVec)表示蛋白质(氨基酸序列),gene-vectors(GeneVec)表示基因序列。BioVec在蛋白质组学与基因组学的深度学习中有广泛应用。他们提出的结果表明,BioVectors可描述生物化学与生物物理学意义下生物序列的基本模式。

将词嵌入扩展到对句子或整个文本的嵌入后得到的结果称为Thought vectors。部分研究者期望用Thought vectors来提升机器翻译的质量。

使用词嵌入技术的训练软件包括托马斯·米科洛维的Word2vec、斯坦福大学的GloVe(英语:GloVe (machine learning))和Deeplearning4j。主成分分析(PCA)和t-分布邻域嵌入算法(英语:t-distributed stochastic neighbor embedding)(t-SNE)也可以用来对词语空间降维,并实现词嵌入的可视化与词义感应(英语:Word-sense induction)。

相关

  • SSTAR小型、密封、便携式自控反应堆(英语:Small, Sealed, Transportable, Autonomous Reactor,缩写:SSTAR)是一种已提出的由美国劳伦斯利福摩尔国家实验室为主体设计及研发的一款设计
  • 阿富汗伊斯兰共和国总统阿富汗总统,是现在阿富汗的国家元首兼政府首脑。阿富汗的共和制度是间断不连续的,只有在1973年至1992年间(阿富汗共和国及阿富汗民主共和国时期)和2001年后才算是共和制的国家,而
  • 孟加拉饥荒1943年孟加拉饥荒发生在1943年,未分开时的孟加拉(现在独立的孟加拉国和印度的西孟加拉邦)。估计有超过300万人死于饥饿、营养不良和饥荒期间有关的疾病。第一种说法是日本的粮
  • 4-羟基苯基丙酮4-羟基苯基丙酮(4-Hydroxyphenylacetone)是苯基丙酮(苯丙胺在人体中的不活泼代谢产物)的羟基类似物。当它作为苯丙胺的代谢产物出现时,它通常是由不活泼的代谢物苯基丙酮中直接产
  • 圣路易斯欧比斯普分校加利福尼亚理工州立大学 (加州理工州立大学,California Polytechnic State University,常用简称:Cal Poly) 成立于1901年,是一所历史悠久的综合科技性公立大学,也常被称作加州科
  • 非部非部,为汉字索引中的部首之一,康熙字典214个部首中的第一百七十五个(八划的则为第九个)。就繁体和简体中文中,非部归于八划部首。非部只以上方、下方为部字。且无其他部首可用者
  • 俄罗斯广播电台俄罗斯广播电台(俄文:Радио России,英文:Radio Rossii),是俄罗斯的一个公共广播电台,属于全俄罗斯国家广播电视公司。 1990年12月10日,电台开始播出。苏联解体后,电台归属
  • 墙柱墙柱(土耳其语:Örme Dikilitaş),又称君士坦丁方尖碑,位于土耳其伊斯坦布尔的君士坦丁堡赛马场(今苏丹艾哈迈德广场)的南侧,靠近蛇柱。这个方尖碑高32米,用石块建造。其精确的建造日
  • 小亨利·康尼克小哈里·康尼克 (Joseph Harry Fowler Connick, Jr.,1967年9月11日-),美国爵士乐音乐家、演员。出生于纽奥良。
  • 河田镇 (陆河县)河田镇是陆河县的县城所在地,县政府在河田镇中心地带。河田镇下辖城北社区、河田社区、新城社区、河南社区、城南社区、沙坑村、溪东村、高沙村、河东村、上径村、甘坪村、宝