词嵌入

✍ dations ◷ 2025-04-28 05:11:35 #人工神经网络,计算语言学,自然语言处理

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

词嵌入的方法包括人工神经网络、对词语同现矩阵(英语:co-occurrence matrix)降维、概率模型以及单词所在上下文的显式表示等。

在底层输入中,使用词嵌入来表示词组的方法极大提升了NLP中语法分析器和文本情感分析等的效果。

词嵌入技术起源于2000年。约书亚·本希奥等人在一系列论文中使用了神经概率语言模型(Neural probabilistic language models)使机器“习得词语的分布式表示(learning a distributed representation for words)”,从而达到将词语空间降维的目的。罗维斯(Roweis)与索尔(Saul)在《科学》上发表了用局部线性嵌入(LLE)来学习高维数据结构的低维表示方法。这个领域开始时稳步发展,在2010年后突飞猛进;一定程度上而言,这是因为这段时间里向量的质量与模型的训练速度有极大的突破。

词嵌入领域的分支繁多,有许多学者致力于其研究。2013年,谷歌一个托马斯·米科洛维(Tomas Mikolov)领导的团队发明了一套工具word2vec来进行词嵌入,训练向量空间模型的速度比以往的方法都快。许多新兴的词嵌入基于人工神经网络,而不是过去的n元语法模型和非监督式学习。

阿斯加里(Asgari)和莫夫拉德(Mofrad)提出了生物信息学中生物序列(DNA、RNA和蛋白质等)基于n元语法的词嵌入技术。bio-vectors(BioVec)表示生物序列的统称,protein-vectors(ProtVec)表示蛋白质(氨基酸序列),gene-vectors(GeneVec)表示基因序列。BioVec在蛋白质组学与基因组学的深度学习中有广泛应用。他们提出的结果表明,BioVectors可描述生物化学与生物物理学意义下生物序列的基本模式。

将词嵌入扩展到对句子或整个文本的嵌入后得到的结果称为Thought vectors。部分研究者期望用Thought vectors来提升机器翻译的质量。

使用词嵌入技术的训练软件包括托马斯·米科洛维的Word2vec、斯坦福大学的GloVe(英语:GloVe (machine learning))和Deeplearning4j。主成分分析(PCA)和t-分布邻域嵌入算法(英语:t-distributed stochastic neighbor embedding)(t-SNE)也可以用来对词语空间降维,并实现词嵌入的可视化与词义感应(英语:Word-sense induction)。

相关

  • 三尖瓣三尖瓣,又称右房室瓣,是在哺乳动物心脏的右后侧,在右心房和右心室之间的瓣膜。其作用是阻止血液回流至右心房。
  • 晒伤晒伤是一种由于过度暴露于紫外线(通常为日光)下导致的射线烧伤。它促进细胞凋亡,引起的症状为皮肤发红、发痛,在少数极端案例中会导致生命危险,而轻度暴露于紫外线下则只会导致晒
  • 胎儿酒精症候群胎儿酒精谱系障碍(Fetal alcohol spectrum disorders,简称FASDs)又称胎儿酒精症候群,是母亲在妊娠期间酗酒对胎儿所造成的先天异常。症状包含外观异常、身材矮小、体重过轻、小
  • 丙型冠状病毒属丙型冠状病毒属(学名:Gammacoronavirus、γ-CoV)是冠状病毒亚科的四个属之一,为具有包膜的正链RNA病毒。有别于甲型冠状病毒属与乙型冠状病毒属仅感染哺乳动物,本属与丁型冠状病
  • 杭州都市圈杭州都市圈是浙北地区的一个以杭州为核心,湖州、嘉兴、绍兴三个城市为副中心的都市圈,杭州市域5县市及德清、安吉、海宁、桐乡、绍兴、诸暨等杭州相邻6县市为紧密层,规划的区域
  • 刘偃 (杨丘侯)刘偃(?-?),杨丘侯刘安子,齐悼惠王刘肥孙,汉高祖曾孙。前164年继承其父为杨丘侯。前153年,因擅自离开杨丘侯国之罪,削为司寇。刘偃曾经撰有汉赋十九篇,而赋名赋文已不得而知。
  • 马来西亚铁路电气化项目马来西亚铁路电气化是马来西亚铁路运输逐渐发展成电气化操作的一个过程。虽然该国第一条铁路早在1885年通车,唯直到1995年8月3日,第一条经电气化的铁路(KTM通勤铁路)才开始运营
  • 白洪锡白洪锡(韩语:백홍석;1890年1月11日-1960年10月4日)日本名德川荣一。朝鲜人,日本陆军军人。大日本帝国陆军士官学校第27期毕业。日本陆军少佐。韩国陆军准将。韩国在乡军人会初任会
  • 黄采仪黄采仪(1974年4月23日-),台湾演员。光仁中学、中国文化大学中文系古典文学组毕业,1997年加入金枝演社,迄今表演经历达二十几年。
  • 被子植物八纲系统被子植物八纲系统,或称吴征镒分类系统,简称“八纲系统”,是由中国植物学家吴征镒、路安民、汤彦承、陈之端、李德铢等于1998年提出的一种被子植物分类体系 。吴征镒等认为:以被