Word2vec

✍ dations ◷ 2025-04-26 17:19:20 #Word2vec

Word2vec是一群用来产生词向量的相关模型。这些模型为浅层双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。

训练完成之后,word2vec模型可以把每个词映射到一个向量,来表示词与词之间的关系。该向量为神经网络的隐藏层。

Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

CBOW把一个词从词窗剔除。在CBOW下给定n词围绕着词w,word2vec预测一个句子中其中一个缺漏的词c,即以几率 p ( c | w ) {displaystyle p(c|w)} 来表示。相反地,Skip-gram给定词窗中的文本,预测当前的词 p ( w | c ) {displaystyle p(w|c)}

Word2vec用来建构整份文件(而分独立的词)的延伸应用已被提出,该延伸称为paragraph2vec或doc2vec,并且用C、Python和 Java/Scala实做成工具(参考下方)。Java和Python也支援推断文件嵌入于未观测的文件。

对word2vec框架为何做词嵌入如此成功知之甚少,约阿夫·哥德堡(Yoav Goldberg)和欧莫·列维(Omer Levy)指出word2vec的功能导致相似文本拥有相似的嵌入(用余弦相似性计算)并且和约翰·鲁伯特·弗斯的分布假说(英语:Distributional semantics)有关。

相关

  • 生命起源在物质科学与无生源论中,生命起源的研究对象主要是关于地球上的生命,如何经历约39到41亿年的进化,从无生物(或死物)转变为生物。2017年,科学家在加拿大魁北克发现42.8亿年前的微体
  • 安提西尼安提西尼(古希腊语:Ἀντισθένης,Antisthenes,前445年-前365年),或译为安提斯泰尼,古希腊哲学家,苏格拉底弟子之一。安提西尼约生于公元前445年,他的父亲也叫安提西尼(Antisthe
  • 大字陶文 ‧ 甲骨文 ‧ 金文 ‧ 古文 ‧ 石鼓文籀文 ‧ 鸟虫书 ‧ 篆书(大篆 ‧  小篆)隶书 ‧ 楷书 ‧ 行书 ‧ 草书漆书 ‧  书法 ‧ 飞白书笔画 ‧ 
  • 第二轻工业部1965年2月20日,第三届全国人民代表大会常务委员会第三次会议通过了关于设立第二轻工业部的决议,原轻工业部改名为第一轻工业部。撤销中央手工业管理总局,改建成立第二轻工业部,
  • 盐酸羟胺盐酸羟胺,化学式NH2OH·HCl。无色单斜结晶,易溶于水,溶于乙醇、甘油,不溶于乙醚。吸湿性强,受潮后逐渐分解。加热至151°C以上亦分解。氯化羟胺可以还原蓝色的铜氨溶液,生成无色的
  • 石家河遗址石家河遗址是湖北省天门市境内的一处新石器时代遗址。遗址位于石家河镇,发现于1954年,年代为公元前3000至2000年。石家河遗址为长江中游地区规模最大、保存最完整的史前聚落遗
  • 2001年东南亚运动会2001年东南亚运动会(英语:2001 Southeast Asian Games,马来语:Sukan Asia Tenggara 2001),正式全称第21届东南亚运动会,是一项于2001年9月8日至17日,在马来西亚吉隆坡举行的东南亚综
  • 滨海阿尔卑斯山脉滨海阿尔卑斯山脉(法语:Alpes maritimes)是欧洲的山脉,是西阿尔卑斯山脉的一部分,横跨法国的库内奥省和因佩里亚省与意大利的滨海阿尔卑斯省,最高点海拔高度3,297米。
  • 弗朗索瓦·博齐泽弗朗索瓦·博齐泽(François Bozizé,1946年10月14日-)为中非共和国前任总统(2003-2013年)。出生于法属赤道非洲穆依拉,曾在法国多所军事院校学习。1975年起,毕业于军事训练学校的弗
  • 长堤长堤可以指: