词嵌入

✍ dations ◷ 2025-05-19 07:42:23 #人工神经网络,计算语言学,自然语言处理

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

词嵌入的方法包括人工神经网络、对词语同现矩阵(英语:co-occurrence matrix)降维、概率模型以及单词所在上下文的显式表示等。

在底层输入中,使用词嵌入来表示词组的方法极大提升了NLP中语法分析器和文本情感分析等的效果。

词嵌入技术起源于2000年。约书亚·本希奥等人在一系列论文中使用了神经概率语言模型(Neural probabilistic language models)使机器“习得词语的分布式表示(learning a distributed representation for words)”,从而达到将词语空间降维的目的。罗维斯(Roweis)与索尔(Saul)在《科学》上发表了用局部线性嵌入(LLE)来学习高维数据结构的低维表示方法。这个领域开始时稳步发展,在2010年后突飞猛进;一定程度上而言,这是因为这段时间里向量的质量与模型的训练速度有极大的突破。

词嵌入领域的分支繁多,有许多学者致力于其研究。2013年,谷歌一个托马斯·米科洛维(Tomas Mikolov)领导的团队发明了一套工具word2vec来进行词嵌入,训练向量空间模型的速度比以往的方法都快。许多新兴的词嵌入基于人工神经网络,而不是过去的n元语法模型和非监督式学习。

阿斯加里(Asgari)和莫夫拉德(Mofrad)提出了生物信息学中生物序列(DNA、RNA和蛋白质等)基于n元语法的词嵌入技术。bio-vectors(BioVec)表示生物序列的统称,protein-vectors(ProtVec)表示蛋白质(氨基酸序列),gene-vectors(GeneVec)表示基因序列。BioVec在蛋白质组学与基因组学的深度学习中有广泛应用。他们提出的结果表明,BioVectors可描述生物化学与生物物理学意义下生物序列的基本模式。

将词嵌入扩展到对句子或整个文本的嵌入后得到的结果称为Thought vectors。部分研究者期望用Thought vectors来提升机器翻译的质量。

使用词嵌入技术的训练软件包括托马斯·米科洛维的Word2vec、斯坦福大学的GloVe(英语:GloVe (machine learning))和Deeplearning4j。主成分分析(PCA)和t-分布邻域嵌入算法(英语:t-distributed stochastic neighbor embedding)(t-SNE)也可以用来对词语空间降维,并实现词嵌入的可视化与词义感应(英语:Word-sense induction)。

相关

  • 伤寒杂病论《伤寒杂病论》,又作《伤寒卒病论》,为东汉张仲景所著,是中国第一部理法方药皆备、理论联系实际的中医临床著作。此书被认为是汉医学之内科学经典,奠定了中医学的基础。在四库全
  • 外温动物变温动物(英语:Poikilotherm),俗称冷体动物、冷血动物或凉血动物。变温动物与外温动物(Ectotherms)不同。变温动物是没有体内调温系统的动物。一般体温不平,或者以行动来调节体温。
  • 老人痴呆症阿尔茨海默病(拉丁语:Morbus Alzheimer、德语:Alzheimer-Krankheit、英语:Alzheimer's disease,缩写:AD),俗称早老性痴呆、老年痴呆,是一种发病进程缓慢、随着时间不断恶化的神经退化
  • 纳米电子技术联盟校际微电子中心(Interuniversity Microelectronics Centre,缩写 imec),又称比利时微电子研究中心,是一个专注于奈米科技的世界领先研究中心,其总部位于比利时鲁汶,并在荷兰恩荷芬、
  • Diarrhea腹泻(俗称拉肚子,广东俗称肚痾,台语俗称漏屎,中医称之为泄泻,英语:diarrhea, diarrhœa来自希腊语:διάρροια,包含两个字根:“διά /dia,经过”,以及“ῥέω/rheo,流动”)的定
  • 三乡话广东省中山市沙溪、大涌、南蓢、三乡及火炬开发区等地;中山闽语是汉藏语系汉语族闽语支闽南语在广东省境内的一种方言,通行于古香山县之隆都、得能都、四大都、谷都和恭常都等
  • 手绢手绢,亦称手帕、手捏子、手巾、面帕,是一种生活用品。
  • 爱之种“爱之种”(愛の種)是日本的女子偶像组合“早安少女组。”的第1张独立制作单曲,于1997年11月3日由URANEBA RECORD发售。
  • 亚历山德拉·米哈伊洛芙娜·柯伦泰亚历山德拉·米哈伊洛芙娜·柯伦泰(俄语:Алекса́ндра Миха́йловна Коллонта́й;1872年3月31日(儒略历:3月19日)-1952年3月9日),本姓多蒙托维奇(Дом
  • By(e) My Melody《By(e) My Melody》(日语:バイマイメロディー),日本男歌手平井坚的第24张单曲。2006年6月14日发行。Sony Music的作品介绍