注意力机制

✍ dations ◷ 2025-08-18 13:58:16 #注意力机制

注意力机制(英语:attention)是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。可以通过梯度下降法对注意力机制进行训练。

类似于注意力机制的架构最早于1990年代提出,当时提出的名称包括乘法模块(multiplicative module)、sigma pi单元、超网络(hypernetwork)等。注意力机制的灵活性来自于它的“软权重”特性,即这种权重是可以在运行时改变的,而非像通常的权重一样必须在运行时保持固定。注意力机制的用途包括神经图灵机(英语:Neural Turing machine)中的记忆功能、可微分神经计算机(英语:Differentiable neural computer)中的推理任务、Transformer模型中的语言处理、Perceiver(感知器)模型中的多模态数据处理(声音、图像、视频和文本)。

假设我们有一个以索引 i {displaystyle i} 排列的标记(token)序列。对于每一个标记 i {displaystyle i} ,神经网络计算出一个相应的满足 i w i = 1 {displaystyle sum _{i}w_{i}=1} 的非负软权重 w i {displaystyle w_{i}} 。每个标记都对应一个由词嵌入得到的向量 v i {displaystyle v_{i}} 。加权平均 i w i v i {displaystyle sum _{i}w_{i}v_{i}} 即是注意力机制的输出结果。

可以使用查询-键机制(query-key mechanism)计算软权重。从每个标记的词嵌入,我们计算其对应的查询向量 q i {displaystyle q_{i}} 和键向量 k i {displaystyle k_{i}} 。再计算点积 q i k j {displaystyle q_{i}k_{j}} 的softmax函数便可以得到对应的权重,其中 i {displaystyle i} 代表当前标记、 j {displaystyle j} 表示与当前标记产生注意力关系的标记。

某些架构中会采用多头注意力机制(multi-head attention),其中每一部分都有独立的查询(query)、键(key)和值(value)。

下图展示了将英语翻译成法语的机器,其基本架构为编码器-解码器结构,另外再加上了一个注意力单元。在图示的简单情况下,注意力单元只是循环层状态的点积计算,并不需要训练。但在实践中,注意力单元由需要训练的三个完全连接的神经网络层组成。这 三层分别被称为查询(query)、键(key)和值(value)。

下表是每一步计算的示例。为清楚起见,表中使用了具体的数值或图形而非字母表示向量与矩阵。嵌套的图形代表了每个h都包含之前所有单词的历史记录。在这里,我们引入注意力分数以得到所需的注意力权重。

以矩阵展示的注意力权重表现了网络如何根据上下文调整其关注点。

对注意力权重的这种展现方式回应了人们经常用来批评神经网络的可解释性问题。对于一个只作逐字翻译而不考虑词序的网络,其注意力权重矩阵会是一个对角占优矩阵。这里非对角占优的特性表明注意力机制能捕捉到更为细微的特征。在第一次通过解码器时,94%的注意力权重在第一个英文单词“I”上,因此网络的输出为对应的法语单词“je”(我)。而在第二次通过解码器时,此时88%的注意力权重在第三个英文单词“you”上,因此网络输出了对应的法语“t'”(你)。最后一遍时,95%的注意力权重在第二个英文单词“love”上,所以网络最后输出的是法语单词“aime”(爱)。

注意力机制有许多变体:点积注意力(dot-product attention)、QKV注意力(query-key-value attention)、强注意力(hard attention)、软注意力(soft attention)、自注意力(self attention)、交叉注意力(cross attention)、Luong注意力、Bahdanau注意力等。这些变体重新组合编码器端的输入,以将注意力效果重新分配到每个目标输出。通常而言,由点积得到的相关式矩阵提供了重新加权系数(参见图例)。

相关

  • 辐射中毒急性辐射综合症,也被称为辐射中毒或辐射病(英文缩写ARS),是一种患者在24小时内暴露于大剂量的游离辐射下导致的症候群,症状可持续多达数个月。 本术语意指急性医疗问题,而不是产生
  • SOCCSKSARGENSOCCSKSARGEN(或SoCCSKSarGen)是菲律宾的一个大区,位于菲律宾棉兰老岛的中部,编号XII。面积14,373km²,人口2,598,210。SOCCSKSARGEN旧称中棉兰老大区,在加入一个原属南棉兰老大区
  • 2,5-二氢呋喃2,5-二氢呋喃(英语:2,5-Dihydrofuran)是一种杂环化合物。该化合物可以由环氧化合物及丁二烯通过重排反应制得。
  • 亨利·丹哈特亨利·丹哈特(Henry H. Denhardt,1876年3月8日-1937年9月20日),是一名美国民主党政治家,他在1923年至1927年期间,担任第34任肯塔基州副州长。他出生于肯塔基州鲍灵格林。1936年,他指
  • 白鸾白鸾(1458年-1503年),字孟禽,陕西凤翔府宝鸡县人,民籍,明朝政治人物。成化二十三年(1487年)丁未科三甲第一百一十八名进士。授监察御史,因事谪曲周县丞,弘治十二年(1499年)迁章丘县知县,丁
  • 百妖谱《百妖谱》最初是由裟椤双树创作的古风玄幻类小说,后由绘梦动画改编成网络动画并从2020年4月开始在Bilibili上独播。故事女主人公桃夭是所有妖怪的救星,也是所有妖怪的噩梦。
  • 豪登列车.mw-parser-output .RMbox{box-shadow:0 2px 2px 0 rgba(0,0,0,.14),0 1px 5px 0 rgba(0,0,0,.12),0 3px 1px -2px rgba(0,0,0,.2)}.mw-parser-output .RMinline{float:none
  • 哈特菲尔德-麦考伊夙怨哈特菲尔德-麦考伊夙怨 (英文:The Hatfield–McCoy feud),指的是1863至1891年中,居住在西弗吉尼亚州和肯塔基州边界两个家族之间的冲突械斗。两个家族傍大桑迪河(Big Sandy River)支流塔格佛克河(Tug Fork)而居,西弗吉尼亚州的哈特菲尔德家族当家的是“恶魔安斯”威廉·安德森·哈特菲尔德(William Anderson "Devil Anse" Hatfield),肯塔基州的麦考伊家族则以伦道夫·麦考伊( Randolph "Ole Ran'l" McCoy)
  • 撒德·艾伦撒德·威廉·艾伦(英语:Thad William Allen,1949年1月16日-)美国海岸警卫队第23任指挥官。博思艾伦汉密尔顿控股公司的资深副总裁。艾伦因其在2005年9月至2006年1月在飓风卡特里娜和丽塔登陆的墨西哥湾沿岸地区指挥政府反应,和他在2010年作为国家事故指挥官统一指挥在墨西哥湾的深水地平线石油泄漏事故处理而收到广泛好评。艾伦出生在亚利桑那州图森。他是损害管制士官克劳德·艾伦和威尔玛·艾伦的儿子。他的父亲是二战老兵。艾伦1967年毕业于图森的帕洛贝尔德高中。他的家庭在他童年时随着他父
  • 1917年俄国立宪会议选举俄国立宪会议选举于1917年11月25日正式举行,选举结果为俄国社会革命党 以明显的选票优势击败主要竞争对手布尔什维克党。 诸多学术研究结果表明,尽管布尔什维克得到了城市工人和前线士兵的广泛支持,但俄国社会革命党获得大量来自乡村地区农民的选票,最终以明显优势胜出。在俄国发起十月革命后夺权的布尔什维克,强制驱散立宪会议,导致选举结果最终失效。俄罗斯共和国政府暂时失去俄国国土。以下结果来自乔治梅森大学的Bryan Caplan: (页面存档备份,存于互联网档案馆)