注意力机制

✍ dations ◷ 2025-11-07 03:58:46 #注意力机制

注意力机制(英语:attention)是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。可以通过梯度下降法对注意力机制进行训练。

类似于注意力机制的架构最早于1990年代提出,当时提出的名称包括乘法模块(multiplicative module)、sigma pi单元、超网络(hypernetwork)等。注意力机制的灵活性来自于它的“软权重”特性,即这种权重是可以在运行时改变的,而非像通常的权重一样必须在运行时保持固定。注意力机制的用途包括神经图灵机(英语:Neural Turing machine)中的记忆功能、可微分神经计算机(英语:Differentiable neural computer)中的推理任务、Transformer模型中的语言处理、Perceiver(感知器)模型中的多模态数据处理(声音、图像、视频和文本)。

假设我们有一个以索引 i {displaystyle i} 排列的标记(token)序列。对于每一个标记 i {displaystyle i} ,神经网络计算出一个相应的满足 i w i = 1 {displaystyle sum _{i}w_{i}=1} 的非负软权重 w i {displaystyle w_{i}} 。每个标记都对应一个由词嵌入得到的向量 v i {displaystyle v_{i}} 。加权平均 i w i v i {displaystyle sum _{i}w_{i}v_{i}} 即是注意力机制的输出结果。

可以使用查询-键机制(query-key mechanism)计算软权重。从每个标记的词嵌入,我们计算其对应的查询向量 q i {displaystyle q_{i}} 和键向量 k i {displaystyle k_{i}} 。再计算点积 q i k j {displaystyle q_{i}k_{j}} 的softmax函数便可以得到对应的权重,其中 i {displaystyle i} 代表当前标记、 j {displaystyle j} 表示与当前标记产生注意力关系的标记。

某些架构中会采用多头注意力机制(multi-head attention),其中每一部分都有独立的查询(query)、键(key)和值(value)。

下图展示了将英语翻译成法语的机器,其基本架构为编码器-解码器结构,另外再加上了一个注意力单元。在图示的简单情况下,注意力单元只是循环层状态的点积计算,并不需要训练。但在实践中,注意力单元由需要训练的三个完全连接的神经网络层组成。这 三层分别被称为查询(query)、键(key)和值(value)。

下表是每一步计算的示例。为清楚起见,表中使用了具体的数值或图形而非字母表示向量与矩阵。嵌套的图形代表了每个h都包含之前所有单词的历史记录。在这里,我们引入注意力分数以得到所需的注意力权重。

以矩阵展示的注意力权重表现了网络如何根据上下文调整其关注点。

对注意力权重的这种展现方式回应了人们经常用来批评神经网络的可解释性问题。对于一个只作逐字翻译而不考虑词序的网络,其注意力权重矩阵会是一个对角占优矩阵。这里非对角占优的特性表明注意力机制能捕捉到更为细微的特征。在第一次通过解码器时,94%的注意力权重在第一个英文单词“I”上,因此网络的输出为对应的法语单词“je”(我)。而在第二次通过解码器时,此时88%的注意力权重在第三个英文单词“you”上,因此网络输出了对应的法语“t'”(你)。最后一遍时,95%的注意力权重在第二个英文单词“love”上,所以网络最后输出的是法语单词“aime”(爱)。

注意力机制有许多变体:点积注意力(dot-product attention)、QKV注意力(query-key-value attention)、强注意力(hard attention)、软注意力(soft attention)、自注意力(self attention)、交叉注意力(cross attention)、Luong注意力、Bahdanau注意力等。这些变体重新组合编码器端的输入,以将注意力效果重新分配到每个目标输出。通常而言,由点积得到的相关式矩阵提供了重新加权系数(参见图例)。

相关

  • 煎锅湖煎锅湖是世界上最大的温泉,位于新西兰北岛怀芒古火山谷(英语:Waimangu Volcanic Rift Valley)。
  • 林义守林义守(1941年11月4日-),为台湾企业家,是义联集团的创办人,亦为现任董事长,出身于台中县龙井乡(今台中市龙井区)大肚山的贫苦农家,从小失学,后来与大哥到高雄奋斗,从建筑业发迹,再因缘际
  • 刘玉红 (厨师)刘玉红(1973年-),华东师范大学厨师,创作了玉米炒葡萄、油条灌蛋、灌肠虾球、脆皮香蕉、番茄炖蛋、桂花山药等菜品,被冠以中国“第九大菜系”创始人。1973年出生于安徽芜湖的小乡村
  • 吉元男爵吉元男爵(日语:バロン吉元,1940年11月11日-),日本漫画家、画家,本名吉元正,剧画全盛时期的作者之一。出生于满州国,在鹿儿岛县指宿市长大,武藏野美术大学西洋画科肄业,1959年投稿到贷本
  • 王卓钧王卓钧(1951年9月3日-),台湾台北人,籍贯山东济南,曾任第14任内政部警政署署长,亦是在位最久的内政部警政署署长,民国73年因表现优异,调升台中市政府警察局第一分局分局长,当年他才三十
  • 吕公著吕公著(1018年-1089年),字晦叔,谥正献,寿州下蔡(今寿县,另说凤台县)人,祖籍莱州(今属山东)。北宋大臣,曾任尚书省仆射,兼中书省侍郎,曾为帝师。知名相国吕夷简之子,幼时好学,竟读孔孟书废寝忘食。其父异之,曰:“他日必为公辅。”公著一有空闲,就替皇帝讲解《论语》,说君王要“返身修德”。吕公著善于讲经议论,言简意赅。司马光说:“每闻晦叔讲,便觉己语为烦。”王安石任用吕惠卿,襄助变法,吕公著曾说吕惠卿:“惠卿固有才,然奸邪不可用”、“獐头鼠目,必是奸邪,将来反对王安石必是此人”。他和司马光、文彦博、
  • 安德鲁·林克莱特安德鲁·林克莱特(Andrew Linklater;1949年8月3日-) ,是一名国际关系学者,现任阿伯里斯特威斯大学国际政治学威尔逊教席。亦为为社会科学学会(英语:Academy of Social Sciences)成员(FAcSS)。2000年,他被列为马丁·格里菲斯(英语:Martin Griffith)《国际关系理论五十位重要思想家》之一。1949年8月3日,林克莱特出生于苏格兰阿伯丁。他在阿伯丁大学攻读政治和国际关系。 1971年取得硕士学位。1973年,在牛津大学贝利奥尔学院取得小博士学
  • 韦伊内·利卡宁韦伊内·利卡宁(芬兰语:Väinö Liikkanen,1903年11月1日-1957年10月15日),芬兰男子越野滑雪运动员。他曾代表芬兰参加1932年冬季奥林匹克运动会越野滑雪比赛,获得男子50公里银牌。
  • 荒野大镖客 (电视剧)《荒野大镖客》(英语:)是一系列于CBS播出的美国西部广播剧及电视剧,由诺曼·麦当诺(英语:Norman Macdonnell)与约翰·梅斯顿共同创作。该剧起初于1952年起以广播剧的方式呈现,1955年改编成电视剧播出。故事背景主要设定于堪萨斯州的道奇城,并以威廉·康拉德(英语:William Conrad)(广播剧)和詹姆斯·阿尼斯(英语:James Arness)(电视剧)所诠释的美国法警麦特·狄伦(英语:Matt Dillon (Gunsmoke))为主角。该剧在英国播出时,最初名为《》,后来改为
  • 威利·基勒威廉·亨利·基勒(英语:William Henry Keeler,1872年3月3日-1923年1月1日)是美国职棒大联盟的右外野手,职棒生涯效力于纽约巨人、布鲁克林新郎、巴尔的摩金莺、布鲁克林超霸、纽约高地人等队。他最出名的是选球能力,他平均每63.1个打数才会被三振一次,为大联盟纪录。基勒于3月3日生于纽约布鲁克林,他从很年轻的时候就开始打棒球,并在高中棒球队担任队长。之后他选择退学,在纽约市区一些半职业球队里打球。1892年,他加入了宾汉顿里的小联盟队伍。之后被纽约巨人升上大联盟,他一开始担任三垒手