注意力机制

✍ dations ◷ 2025-04-26 11:51:04 #注意力机制

注意力机制(英语:attention)是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。可以通过梯度下降法对注意力机制进行训练。

类似于注意力机制的架构最早于1990年代提出,当时提出的名称包括乘法模块(multiplicative module)、sigma pi单元、超网络(hypernetwork)等。注意力机制的灵活性来自于它的“软权重”特性,即这种权重是可以在运行时改变的,而非像通常的权重一样必须在运行时保持固定。注意力机制的用途包括神经图灵机(英语:Neural Turing machine)中的记忆功能、可微分神经计算机(英语:Differentiable neural computer)中的推理任务、Transformer模型中的语言处理、Perceiver(感知器)模型中的多模态数据处理(声音、图像、视频和文本)。

假设我们有一个以索引 i {displaystyle i} 排列的标记(token)序列。对于每一个标记 i {displaystyle i} ,神经网络计算出一个相应的满足 i w i = 1 {displaystyle sum _{i}w_{i}=1} 的非负软权重 w i {displaystyle w_{i}} 。每个标记都对应一个由词嵌入得到的向量 v i {displaystyle v_{i}} 。加权平均 i w i v i {displaystyle sum _{i}w_{i}v_{i}} 即是注意力机制的输出结果。

可以使用查询-键机制(query-key mechanism)计算软权重。从每个标记的词嵌入,我们计算其对应的查询向量 q i {displaystyle q_{i}} 和键向量 k i {displaystyle k_{i}} 。再计算点积 q i k j {displaystyle q_{i}k_{j}} 的softmax函数便可以得到对应的权重,其中 i {displaystyle i} 代表当前标记、 j {displaystyle j} 表示与当前标记产生注意力关系的标记。

某些架构中会采用多头注意力机制(multi-head attention),其中每一部分都有独立的查询(query)、键(key)和值(value)。

下图展示了将英语翻译成法语的机器,其基本架构为编码器-解码器结构,另外再加上了一个注意力单元。在图示的简单情况下,注意力单元只是循环层状态的点积计算,并不需要训练。但在实践中,注意力单元由需要训练的三个完全连接的神经网络层组成。这 三层分别被称为查询(query)、键(key)和值(value)。

下表是每一步计算的示例。为清楚起见,表中使用了具体的数值或图形而非字母表示向量与矩阵。嵌套的图形代表了每个h都包含之前所有单词的历史记录。在这里,我们引入注意力分数以得到所需的注意力权重。

以矩阵展示的注意力权重表现了网络如何根据上下文调整其关注点。

对注意力权重的这种展现方式回应了人们经常用来批评神经网络的可解释性问题。对于一个只作逐字翻译而不考虑词序的网络,其注意力权重矩阵会是一个对角占优矩阵。这里非对角占优的特性表明注意力机制能捕捉到更为细微的特征。在第一次通过解码器时,94%的注意力权重在第一个英文单词“I”上,因此网络的输出为对应的法语单词“je”(我)。而在第二次通过解码器时,此时88%的注意力权重在第三个英文单词“you”上,因此网络输出了对应的法语“t'”(你)。最后一遍时,95%的注意力权重在第二个英文单词“love”上,所以网络最后输出的是法语单词“aime”(爱)。

注意力机制有许多变体:点积注意力(dot-product attention)、QKV注意力(query-key-value attention)、强注意力(hard attention)、软注意力(soft attention)、自注意力(self attention)、交叉注意力(cross attention)、Luong注意力、Bahdanau注意力等。这些变体重新组合编码器端的输入,以将注意力效果重新分配到每个目标输出。通常而言,由点积得到的相关式矩阵提供了重新加权系数(参见图例)。

相关

  • β-肾上腺素能受体肾上腺素能受体(英语:Adrenergic receptors,或称为肾上腺素受体)是一类接受儿茶酚胺类物质刺激的代谢型G蛋白偶联受体,所接受的儿茶酚胺类主要是去甲肾上腺素以及肾上腺素。尽管
  • 专家专业人士,通称专家、学者,即职场上的专门行业,指具备专业化知识及技能的职业人士。通常,专业技能须符合科学原理,经过长时间的学习及训练,并有经专业认证的考试获得的合格证书或执
  • 伊丽莎白·阿玛丽亚 (列支敦士登王妃)伊丽莎白·阿玛丽亚(德语:Elisabeth Amalie,1878年7月7日-1960年3月13日)是列支敦士登王妃和奥匈帝国女大公。她的丈夫是列支敦士登王子阿洛伊斯。她是奥匈帝国皇帝法兰兹·约瑟
  • 华炳泉华炳泉(1933年-),江苏无锡人,中国篮球教练、裁判员。1952年毕业于华东师范大学体育系。1958年-1966年担任福建省男子篮球队教练。1999年被评为新中国篮球50杰。
  • 满四满四(?-1469年),本名满俊,因在家中排行老四,俗称“满四”,明朝陕西固原开城的土官,蒙古族。明宪宗成化三年(1467年)六月,满四聚众数万起事,自称招贤王。陕西总兵任寿、陈价讨伐失利。满四
  • 柚木凉香柚木凉香(1974年1月10日-),是一名日本女性声优。爱知县安城市出身。柚木凉香的旧艺名为永椎步美(永椎あゆみ),曾经历一段时间从事泳装模特儿、女优的工作。柚木凉香出道初期主要从
  • 崇左市崇左市是中华人民共和国广西壮族自治区下辖的地级市,位于广西西南部。市境东邻自治区首府南宁市,东南接防城港市,北与百色市相邻,西面及南面与越南接壤。地处桂西南山地丘陵区左
  • ASUS Transformer请对照以下删除理由判断本页是否具备执行快速删除的理据:本页可能符合快速删除的标准而需删除,理由:请勿移除本模板。如有异议,请在本模板下方加入{{hang on|理由}},并尽快到讨论页阐明理据。其他编者若认为本页明显不符合快速删除的标准,或者您已修正存在的问题,可去除此模板。ASUS Transformer系列。
  • 子国 (楚国)子国(?-?),芈姓,名宁,字子国,即公孙宁,春秋末期楚国的令尹,令尹子西之子,楚平王之孙,公孙朝的兄弟。前479年,父亲子西被白公胜所杀。白公胜之乱平定后,沈诸梁把令尹让给了公孙宁。前478年,楚惠王占卜子良能否作令尹,沈尹朱说,吉利,超过了他的期望。叶公沈诸梁认为王子不适宜当令尹,于是令尹由公孙宁就任。前477年,巴国进犯楚国,三月,公孙宁率师大败巴国,公孙宁被封在析。
  • 葱岭回鹘葱岭回鹘,也被称为西回鹘,是回鹘亡国后西迁到中亚楚河一带的回鹘族。即是日后喀喇汗国主体部落,葛逻禄人是维吾尔族的祖源之一。迁到其它地区的回鹘族也融合了当地其他民族成为维吾尔族和裕固族(元朝称为“撒里畏吾尔”)的祖先之一。