注意力机制

✍ dations ◷ 2025-07-06 07:31:10 #注意力机制

注意力机制(英语:attention)是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。可以通过梯度下降法对注意力机制进行训练。

类似于注意力机制的架构最早于1990年代提出,当时提出的名称包括乘法模块(multiplicative module)、sigma pi单元、超网络(hypernetwork)等。注意力机制的灵活性来自于它的“软权重”特性,即这种权重是可以在运行时改变的,而非像通常的权重一样必须在运行时保持固定。注意力机制的用途包括神经图灵机(英语:Neural Turing machine)中的记忆功能、可微分神经计算机(英语:Differentiable neural computer)中的推理任务、Transformer模型中的语言处理、Perceiver(感知器)模型中的多模态数据处理(声音、图像、视频和文本)。

假设我们有一个以索引 i {displaystyle i} 排列的标记(token)序列。对于每一个标记 i {displaystyle i} ,神经网络计算出一个相应的满足 i w i = 1 {displaystyle sum _{i}w_{i}=1} 的非负软权重 w i {displaystyle w_{i}} 。每个标记都对应一个由词嵌入得到的向量 v i {displaystyle v_{i}} 。加权平均 i w i v i {displaystyle sum _{i}w_{i}v_{i}} 即是注意力机制的输出结果。

可以使用查询-键机制(query-key mechanism)计算软权重。从每个标记的词嵌入,我们计算其对应的查询向量 q i {displaystyle q_{i}} 和键向量 k i {displaystyle k_{i}} 。再计算点积 q i k j {displaystyle q_{i}k_{j}} 的softmax函数便可以得到对应的权重,其中 i {displaystyle i} 代表当前标记、 j {displaystyle j} 表示与当前标记产生注意力关系的标记。

某些架构中会采用多头注意力机制(multi-head attention),其中每一部分都有独立的查询(query)、键(key)和值(value)。

下图展示了将英语翻译成法语的机器,其基本架构为编码器-解码器结构,另外再加上了一个注意力单元。在图示的简单情况下,注意力单元只是循环层状态的点积计算,并不需要训练。但在实践中,注意力单元由需要训练的三个完全连接的神经网络层组成。这 三层分别被称为查询(query)、键(key)和值(value)。

下表是每一步计算的示例。为清楚起见,表中使用了具体的数值或图形而非字母表示向量与矩阵。嵌套的图形代表了每个h都包含之前所有单词的历史记录。在这里,我们引入注意力分数以得到所需的注意力权重。

以矩阵展示的注意力权重表现了网络如何根据上下文调整其关注点。

对注意力权重的这种展现方式回应了人们经常用来批评神经网络的可解释性问题。对于一个只作逐字翻译而不考虑词序的网络,其注意力权重矩阵会是一个对角占优矩阵。这里非对角占优的特性表明注意力机制能捕捉到更为细微的特征。在第一次通过解码器时,94%的注意力权重在第一个英文单词“I”上,因此网络的输出为对应的法语单词“je”(我)。而在第二次通过解码器时,此时88%的注意力权重在第三个英文单词“you”上,因此网络输出了对应的法语“t'”(你)。最后一遍时,95%的注意力权重在第二个英文单词“love”上,所以网络最后输出的是法语单词“aime”(爱)。

注意力机制有许多变体:点积注意力(dot-product attention)、QKV注意力(query-key-value attention)、强注意力(hard attention)、软注意力(soft attention)、自注意力(self attention)、交叉注意力(cross attention)、Luong注意力、Bahdanau注意力等。这些变体重新组合编码器端的输入,以将注意力效果重新分配到每个目标输出。通常而言,由点积得到的相关式矩阵提供了重新加权系数(参见图例)。

相关

  • 监察院厅舍监察院厅舍,原称台北州厅舍或台北州厅,是一栋位于中华民国台北市中正区的衙署建筑。监察院厅舍是一座以“曲尺”型平面设计的建筑,为台湾总督府技师森山松之助的作品,属后期文艺
  • 龙眼龙眼(学名:Dimocarpus longan),又称桂圆、福圆、荔枝奴、亚荔枝、燕卵,为水果;寿命最长可达400多年。常绿大乔木,高6-10米。长椭圆形叶子互生,全缘、革质、光滑无毛,长6-10厘米,宽2-4厘
  • 德乌尔加奥恩拉贾德乌尔加奥恩拉贾(Deulgaon Raja),是印度马哈拉施特拉邦Buldana县的一个城镇。总人口24372(2001年)。该地2001年总人口24372人,其中男性12634人,女性11738人;0—6岁人口3469人,其中男
  • 吴克明吴克明(台湾话:.mw-parser-output .sans-serif{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,Lato,"Helvetica Neue",Helvetica,Arial,sans-serif}Ngô͘
  • 上衣上衣(英语:Top)泛指上半身所穿的衣衫,其覆盖范围至少在胸部,但通常是覆盖脖子和腰之间的大部分上半身的衣服。 上衣的底部可以短至躯干中部,或长至大腿中部。男士上衣通常与裤子搭
  • 黄则骞黄则骞(1861年-1932年4月3日),字则华,号弘毅,商号黄德和商行,台湾日治时期的鹿港本地粮商(黄德和米栈)时称“米刈骞”,台中州彰化郡福兴庄菜园角人,与辜显荣同为鹿港著名的地方仕绅。
  • 陈海虹陈海虹(1918年-1996年11月8日)是台湾的漫画家,本名陈伯涛。出生于福建省思明县。代表作为《小侠龙卷风》。洪德麟誉为“台湾武侠的开山鼻祖”。喜好搜集名人书画,幼时已临摹为主,
  • 非常人贩2《非常人贩2》(英语:)是一部在2005年上映的法国动作片,由路易斯·莱特里尔执导及吕克·贝松监制。这部片的前作为《非常人贩》(2002年),续集为《非常人贩3》(2008年)。由杰森·斯坦森
  • 1761年
  • 超级新星选举超级新星竞选(Super Talent Contest 1987),1987年由电视广播有限公司举办,目的为发掘电视新星,由何守信和郑裕玲主持,曾国强监制叶伟强编审。曾参加此比赛而加入娱乐圈的有梁珮玲、林文龙、刘秀萍、麦长青和邵仲衡等。是次比赛有7,312人报名参加,挑选十二男十二女入围准决赛, 继而从中选出六男六女入决赛。准决赛:1987年5月3日星期日晚上八时三十五分在广播道无线电视一号录影厂举行决赛:1987年5月24日星期日晚上八时三十五分在湾仔伊利沙伯体育馆举行汪明荃、锺景辉、李翰祥、张国荣、嘉