注意力机制

✍ dations ◷ 2025-11-28 05:31:23 #注意力机制

注意力机制(英语:attention)是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。可以通过梯度下降法对注意力机制进行训练。

类似于注意力机制的架构最早于1990年代提出,当时提出的名称包括乘法模块(multiplicative module)、sigma pi单元、超网络(hypernetwork)等。注意力机制的灵活性来自于它的“软权重”特性,即这种权重是可以在运行时改变的,而非像通常的权重一样必须在运行时保持固定。注意力机制的用途包括神经图灵机(英语:Neural Turing machine)中的记忆功能、可微分神经计算机(英语:Differentiable neural computer)中的推理任务、Transformer模型中的语言处理、Perceiver(感知器)模型中的多模态数据处理(声音、图像、视频和文本)。

假设我们有一个以索引 i {displaystyle i} 排列的标记(token)序列。对于每一个标记 i {displaystyle i} ,神经网络计算出一个相应的满足 i w i = 1 {displaystyle sum _{i}w_{i}=1} 的非负软权重 w i {displaystyle w_{i}} 。每个标记都对应一个由词嵌入得到的向量 v i {displaystyle v_{i}} 。加权平均 i w i v i {displaystyle sum _{i}w_{i}v_{i}} 即是注意力机制的输出结果。

可以使用查询-键机制(query-key mechanism)计算软权重。从每个标记的词嵌入,我们计算其对应的查询向量 q i {displaystyle q_{i}} 和键向量 k i {displaystyle k_{i}} 。再计算点积 q i k j {displaystyle q_{i}k_{j}} 的softmax函数便可以得到对应的权重,其中 i {displaystyle i} 代表当前标记、 j {displaystyle j} 表示与当前标记产生注意力关系的标记。

某些架构中会采用多头注意力机制(multi-head attention),其中每一部分都有独立的查询(query)、键(key)和值(value)。

下图展示了将英语翻译成法语的机器,其基本架构为编码器-解码器结构,另外再加上了一个注意力单元。在图示的简单情况下,注意力单元只是循环层状态的点积计算,并不需要训练。但在实践中,注意力单元由需要训练的三个完全连接的神经网络层组成。这 三层分别被称为查询(query)、键(key)和值(value)。

下表是每一步计算的示例。为清楚起见,表中使用了具体的数值或图形而非字母表示向量与矩阵。嵌套的图形代表了每个h都包含之前所有单词的历史记录。在这里,我们引入注意力分数以得到所需的注意力权重。

以矩阵展示的注意力权重表现了网络如何根据上下文调整其关注点。

对注意力权重的这种展现方式回应了人们经常用来批评神经网络的可解释性问题。对于一个只作逐字翻译而不考虑词序的网络,其注意力权重矩阵会是一个对角占优矩阵。这里非对角占优的特性表明注意力机制能捕捉到更为细微的特征。在第一次通过解码器时,94%的注意力权重在第一个英文单词“I”上,因此网络的输出为对应的法语单词“je”(我)。而在第二次通过解码器时,此时88%的注意力权重在第三个英文单词“you”上,因此网络输出了对应的法语“t'”(你)。最后一遍时,95%的注意力权重在第二个英文单词“love”上,所以网络最后输出的是法语单词“aime”(爱)。

注意力机制有许多变体:点积注意力(dot-product attention)、QKV注意力(query-key-value attention)、强注意力(hard attention)、软注意力(soft attention)、自注意力(self attention)、交叉注意力(cross attention)、Luong注意力、Bahdanau注意力等。这些变体重新组合编码器端的输入,以将注意力效果重新分配到每个目标输出。通常而言,由点积得到的相关式矩阵提供了重新加权系数(参见图例)。

相关

  • 长征二号丁长征二号丁运载火箭(简称:“长二丁”)是中国于1990年2月开始研制的一型航天运载火箭,1992年8月9日首次发射并将中国新型返回式科学试验卫星送入预定的轨道。该火箭是在长征四号
  • 程逸汝程逸汝(1939年-2020年7月3日),男,浙江鄞县人,中国儿童文学作家,原上海师范高等专科学校高级讲师。中国作家协会会员。1960年毕业于上海第三师范学校,留校担任语文教师。1963年并入上
  • 秋秀人秋秀人是一名日本成人电影(AV)导演。自从1998年至今,他导演过逾300部电影。1970年,秋秀人在日本静冈县出生。在他1999年出版的“日记”中,他讲述了17岁的AV女优小林瞳来到附近的
  • 穆罕马迪亚穆哈玛迪亚(阿拉伯语:محمدية‎,意为穆罕默德的信徒),又译为穆哈默迪亚、穆罕马迪亚等,是印度尼西亚的一个伊斯兰组织。该组织由阿末达兰(英语:Ahmad Dahlan)于1912年在雅加达成
  • 安玉龙安玉龙(1978年-),中国吉林省人,男子短道速滑运动员、教练员。安玉龙出生于吉林市,在冬奥会上共获1银2铜,1996年入选国家队。2003年退役后,安玉龙担任吉林省冰上运动管理中心教练,曾指
  • 矢柜峠矢柜山口(ヤビツ峠)是位于日本神奈川县秦野市标高761米的山道。神奈川县道70号秦野清川线经过此处。矢柜山口是唯一南北贯穿丹泽山地的交通要道。虽然丹泽山地西面有犬越路。
  • 永远同在 .mw-parser-output div.medialist{min-height:50px;margin:1em;background-position:top left;background-repeat:no-repeat}.mw-parser-output div.medialist ul{list-sty
  • 罗伯托·菲尔米诺罗伯托·菲尔米诺·巴博萨·德·奥利维拉(葡萄牙语:Roberto Firmino Barbosa de Oliveira,1991年10月2日-)通常称为罗伯托·菲尔米诺,为一名巴西职业足球员
  • U-11号潜艇 (奥匈帝国)陛下之11号潜艇(德语:SM U 11)或称U-XI号潜艇是奥匈帝国海军在第一次世界大战期间购置的U-10级潜艇(英语:U-10-class submarine)的二号艇。它原是作为UB-I型潜艇在德意志帝国海军服役,战术编号使用UB-15号。该艇由不来梅的威悉船厂承建,竣工后的艇体被拆解成若干部分并通过铁路运输至奥匈帝国港口普拉进行重新组装并下水。1915年4月,它在德国海军麾下正式入役(英语:Ship commissioning),并于6月击沉了一艘意大利潜艇。UB-15号于6月14日移交奥匈帝国,改
  • 洪恩教育洪恩教育是一家提供儿童寓教于乐产品的中华人民共和国教育机构,主要面向启蒙阶段儿童,提供自主学习App、儿童教育数字内容及电子产品等。公司成立于1996年,总部位于中华人民共和国北京市,公司创始人池宇峰也是完美世界创始人。2020年10月9日晚,洪恩教育在纽交所挂牌上市,股票代码“iH”。