注意力机制

✍ dations ◷ 2025-11-05 03:55:59 #注意力机制

注意力机制(英语:attention)是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。可以通过梯度下降法对注意力机制进行训练。

类似于注意力机制的架构最早于1990年代提出,当时提出的名称包括乘法模块(multiplicative module)、sigma pi单元、超网络(hypernetwork)等。注意力机制的灵活性来自于它的“软权重”特性,即这种权重是可以在运行时改变的,而非像通常的权重一样必须在运行时保持固定。注意力机制的用途包括神经图灵机(英语:Neural Turing machine)中的记忆功能、可微分神经计算机(英语:Differentiable neural computer)中的推理任务、Transformer模型中的语言处理、Perceiver(感知器)模型中的多模态数据处理(声音、图像、视频和文本)。

假设我们有一个以索引 i {displaystyle i} 排列的标记(token)序列。对于每一个标记 i {displaystyle i} ,神经网络计算出一个相应的满足 i w i = 1 {displaystyle sum _{i}w_{i}=1} 的非负软权重 w i {displaystyle w_{i}} 。每个标记都对应一个由词嵌入得到的向量 v i {displaystyle v_{i}} 。加权平均 i w i v i {displaystyle sum _{i}w_{i}v_{i}} 即是注意力机制的输出结果。

可以使用查询-键机制(query-key mechanism)计算软权重。从每个标记的词嵌入,我们计算其对应的查询向量 q i {displaystyle q_{i}} 和键向量 k i {displaystyle k_{i}} 。再计算点积 q i k j {displaystyle q_{i}k_{j}} 的softmax函数便可以得到对应的权重,其中 i {displaystyle i} 代表当前标记、 j {displaystyle j} 表示与当前标记产生注意力关系的标记。

某些架构中会采用多头注意力机制(multi-head attention),其中每一部分都有独立的查询(query)、键(key)和值(value)。

下图展示了将英语翻译成法语的机器,其基本架构为编码器-解码器结构,另外再加上了一个注意力单元。在图示的简单情况下,注意力单元只是循环层状态的点积计算,并不需要训练。但在实践中,注意力单元由需要训练的三个完全连接的神经网络层组成。这 三层分别被称为查询(query)、键(key)和值(value)。

下表是每一步计算的示例。为清楚起见,表中使用了具体的数值或图形而非字母表示向量与矩阵。嵌套的图形代表了每个h都包含之前所有单词的历史记录。在这里,我们引入注意力分数以得到所需的注意力权重。

以矩阵展示的注意力权重表现了网络如何根据上下文调整其关注点。

对注意力权重的这种展现方式回应了人们经常用来批评神经网络的可解释性问题。对于一个只作逐字翻译而不考虑词序的网络,其注意力权重矩阵会是一个对角占优矩阵。这里非对角占优的特性表明注意力机制能捕捉到更为细微的特征。在第一次通过解码器时,94%的注意力权重在第一个英文单词“I”上,因此网络的输出为对应的法语单词“je”(我)。而在第二次通过解码器时,此时88%的注意力权重在第三个英文单词“you”上,因此网络输出了对应的法语“t'”(你)。最后一遍时,95%的注意力权重在第二个英文单词“love”上,所以网络最后输出的是法语单词“aime”(爱)。

注意力机制有许多变体:点积注意力(dot-product attention)、QKV注意力(query-key-value attention)、强注意力(hard attention)、软注意力(soft attention)、自注意力(self attention)、交叉注意力(cross attention)、Luong注意力、Bahdanau注意力等。这些变体重新组合编码器端的输入,以将注意力效果重新分配到每个目标输出。通常而言,由点积得到的相关式矩阵提供了重新加权系数(参见图例)。

相关

  • 量子计算机量子计算机(英语:Quantum computer)是一种使用量子逻辑进行通用计算的设备。不同于电子计算机(或称传统计算机),量子计算用来存储数据的对象是量子比特,它使用量子算法来进行数据操
  • 2017亚太经合组织第二十五次领导人非正式会议(英语:The 25th APEC Economic Leaders' Meeting),简称英语:APEC Vietnam 2017、2017年越南APEC峰会,本届会议正值亚洲太平洋经济合作组织
  • 詹姆斯·穆勒詹姆斯·穆勒(英文:James Mill,1773年4月6日-1836年6月23日),也译作詹姆斯·密尔,是一位苏格兰历史学家、经济学家、政治理论家、哲学家。他与大卫·李嘉图一同是古典经济学的创始
  • 火山口湖 (美国)火山口湖(Crater Lake),中文又译魁特湖,是位于美国俄勒冈州的一个火山湖。属火山口湖国家公园管区范围内。火山口湖以其深蓝色的湖水和很高的透明度而闻名。火山口湖最深的部分
  • 曹充曹充,鲁国薛县(今山东省滕州市)人。东汉学者、经学家。曹充修习庆氏《礼记》,建武年间就拜为博士,曾随汉光武帝出巡泰山,协助定制封禅大礼。再受诏议立七郊、三雍、大射、养老礼仪
  • KTX-山川KTX-山川(朝鲜语:KTX-산천/KTX-山川  */?)为大韩民国韩国铁道公社(KORAIL)开发的高速铁道车辆,车辆分为韩国铁路公司拥有和运营的110000型和140000型,以及韩国铁路公司拥有并由SR
  • 极速前进5《极速前进5》(英语:)是流行的真人秀电视系列剧极速前进的第五季。它由2004年7月6日在CBS开始播放,同年9月21日播放完毕。该节目拍摄日期是2004年1月25日,完结日期是2月27日。在这季,有多个规则变更,详细如下:以下是各队伍参赛结果:每集均选出一名参赛者于集内说过的一句话作标题,下表列出各集标题,而标题名旁的为该发言的参赛者名称。本奖项颁发给部分赛段的冠军队,下表列出该些赛段的奖项。 美国 →  乌拉圭 →  阿根廷 →  俄罗斯 →  埃及 →  肯尼亚 →  坦桑尼亚 →  阿联酋 →
  • 佩图拉·克拉克佩图拉·克拉克,CBE(英语:Petula Clark,1932年11月15日-)是英国歌手、演员、作曲家,其职业生涯长达70多个年头。克拉克的职业生涯始于二战期间,那时她在英国广播公司电台里作艺人。1950年代,她开始用法语演唱,并以《The Little Shoemaker》、《With All My Heart》、《Prends Mon Cœur》在法语圈、英文圈获得了国际上的成功。1960年代,她开始在全球走红,并被称为“英国入侵第一女士”(the First Lady of the Britis
  • 当代艺术学院当代艺术学院(Institute of Contemporary Arts,ICA)是位于英国伦敦特拉法加广场附近的一座艺术和文化中心,位于纳什府之内,是卡尔顿府联排的一部分,靠近约克公爵纪念柱和水师提督门。当代艺术学院包括画廊、一个剧场、两个电影院、一个书店和一个酒吧。
  • 菅野贤一菅野贤一(1971年8月8日-),前日本足球运动员。FC ESPERANZA