Word2vec

✍ dations ◷ 2025-07-15 08:16:24 #Word2vec

Word2vec是一群用来产生词向量的相关模型。这些模型为浅层双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。

训练完成之后,word2vec模型可以把每个词映射到一个向量,来表示词与词之间的关系。该向量为神经网络的隐藏层。

Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

CBOW把一个词从词窗剔除。在CBOW下给定n词围绕着词w,word2vec预测一个句子中其中一个缺漏的词c,即以几率 p ( c | w ) {displaystyle p(c|w)} 来表示。相反地,Skip-gram给定词窗中的文本,预测当前的词 p ( w | c ) {displaystyle p(w|c)}

Word2vec用来建构整份文件(而分独立的词)的延伸应用已被提出,该延伸称为paragraph2vec或doc2vec,并且用C、Python和 Java/Scala实做成工具(参考下方)。Java和Python也支援推断文件嵌入于未观测的文件。

对word2vec框架为何做词嵌入如此成功知之甚少,约阿夫·哥德堡(Yoav Goldberg)和欧莫·列维(Omer Levy)指出word2vec的功能导致相似文本拥有相似的嵌入(用余弦相似性计算)并且和约翰·鲁伯特·弗斯的分布假说(英语:Distributional semantics)有关。

相关

  • 胆色素胆红素(英文:Bilirubin)是胆色素的一种,是人类胆汁的主要色素,呈橙黄色。它是体内血红素的主要代谢产物,有毒性,可对大脑和神经系统引起不可逆的损害,但也有抗氧化剂功能,可以抑制亚
  • PDGF血小板衍生生长因子受体(Platelet-derived growth factor receptors,PDGF-R)为血小板衍生生长因子(PDGF)蛋白质家族的受体,位于细胞膜表面,属于酪胺酸激酶受体(英语:receptor tyrosin
  • 钱毅平钱毅平(1960年11月-),江苏省吴江县人。中国人民解放军少将。曾任中国人民解放军总装备部某试验训练基地后勤部部长、副司令员。2010年7月,任中国人民解放军总装备部后勤部副部长,
  • 上海市参议会上海市参议会为民国35年(1946年)至民国38年(1949年)间上海市的全市人民代表机关。民国35年8月13日正式集会,民国38年3月召开第一届第九次大会后休会。1949年5月,上海市易帜后被废
  • 罗根·马歇尔-格林罗根·马歇尔-格林(英语:Logan Marshall-Green,1976年11月1日-)是美国的一位演员。他出演过《24》、《橘郡风云》、《亡命天涯》、《暗警》、《战后启示录》等电视剧,还有演出电影
  • 红楼梦抄本列表《红楼梦》抄本列表给出了目前发现的可信的《红楼梦》抄本的列表,其中不包括只存在于人的记忆中而无实物的抄本(比如存在于日本哲学教授儿玉达童口中的“三六桥本”),也不包括真
  • 鲍叔牙鲍叔牙(?-前644年),姒姓,鲍氏,亦称鲍叔、鲍子,春秋时代齐国大夫,颍上(今安徽省阜阳市颍上县)人。父为鲍敬叔。鲍叔牙是管仲的好友,早期管仲贫困,鲍叔牙时常接济他,刻意让管仲占便宜。后来
  • 巴约 (帕拉伊巴州)巴约(葡萄牙语:Bayeux)是巴西帕拉伊巴州的一个市镇。总面积32平方公里,总人口92891人,人口密度2902.8人/平方公里。
  • .design.design是一个新的互联网通用顶级域,于2015年5月12日向公众开放注册。旨在为各类设计类单位和个人的网站提供服务。在全面开放注册的第一天,即有逾5,200个域名被申请注册。
  • 汉语辞书在现代汉语中,辞书是字典、辞典、百科全书等的统称。传统的汉语辞书多达上百种,其中最早的可追溯至两千年前的汉朝。在所有语言中,汉语辞书学的历史是最悠久的。古汉语中,字和词没有明显的区分。“字书”既解单字亦释复词,是古代解说文字形音义的著作泛称,在南北朝已经通用。“字典”作为解释文字书籍的名称是自《康熙字典》开始,清人所说字典专指这一部书。到了近代,“词典”(辞典)的名称产生,字典和词典才相对有了界分。但一般所指字典包含词典,因为现在的字典多兼收语词,词典皆以单字为字头,字与词始终有不可分割的关系。步入现代,