注意力机制

✍ dations ◷ 2025-09-18 20:46:25 #注意力机制

注意力机制(英语:attention)是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。可以通过梯度下降法对注意力机制进行训练。

类似于注意力机制的架构最早于1990年代提出,当时提出的名称包括乘法模块(multiplicative module)、sigma pi单元、超网络(hypernetwork)等。注意力机制的灵活性来自于它的“软权重”特性,即这种权重是可以在运行时改变的,而非像通常的权重一样必须在运行时保持固定。注意力机制的用途包括神经图灵机(英语:Neural Turing machine)中的记忆功能、可微分神经计算机(英语:Differentiable neural computer)中的推理任务、Transformer模型中的语言处理、Perceiver(感知器)模型中的多模态数据处理(声音、图像、视频和文本)。

假设我们有一个以索引 i {displaystyle i} 排列的标记(token)序列。对于每一个标记 i {displaystyle i} ,神经网络计算出一个相应的满足 i w i = 1 {displaystyle sum _{i}w_{i}=1} 的非负软权重 w i {displaystyle w_{i}} 。每个标记都对应一个由词嵌入得到的向量 v i {displaystyle v_{i}} 。加权平均 i w i v i {displaystyle sum _{i}w_{i}v_{i}} 即是注意力机制的输出结果。

可以使用查询-键机制(query-key mechanism)计算软权重。从每个标记的词嵌入,我们计算其对应的查询向量 q i {displaystyle q_{i}} 和键向量 k i {displaystyle k_{i}} 。再计算点积 q i k j {displaystyle q_{i}k_{j}} 的softmax函数便可以得到对应的权重,其中 i {displaystyle i} 代表当前标记、 j {displaystyle j} 表示与当前标记产生注意力关系的标记。

某些架构中会采用多头注意力机制(multi-head attention),其中每一部分都有独立的查询(query)、键(key)和值(value)。

下图展示了将英语翻译成法语的机器,其基本架构为编码器-解码器结构,另外再加上了一个注意力单元。在图示的简单情况下,注意力单元只是循环层状态的点积计算,并不需要训练。但在实践中,注意力单元由需要训练的三个完全连接的神经网络层组成。这 三层分别被称为查询(query)、键(key)和值(value)。

下表是每一步计算的示例。为清楚起见,表中使用了具体的数值或图形而非字母表示向量与矩阵。嵌套的图形代表了每个h都包含之前所有单词的历史记录。在这里,我们引入注意力分数以得到所需的注意力权重。

以矩阵展示的注意力权重表现了网络如何根据上下文调整其关注点。

对注意力权重的这种展现方式回应了人们经常用来批评神经网络的可解释性问题。对于一个只作逐字翻译而不考虑词序的网络,其注意力权重矩阵会是一个对角占优矩阵。这里非对角占优的特性表明注意力机制能捕捉到更为细微的特征。在第一次通过解码器时,94%的注意力权重在第一个英文单词“I”上,因此网络的输出为对应的法语单词“je”(我)。而在第二次通过解码器时,此时88%的注意力权重在第三个英文单词“you”上,因此网络输出了对应的法语“t'”(你)。最后一遍时,95%的注意力权重在第二个英文单词“love”上,所以网络最后输出的是法语单词“aime”(爱)。

注意力机制有许多变体:点积注意力(dot-product attention)、QKV注意力(query-key-value attention)、强注意力(hard attention)、软注意力(soft attention)、自注意力(self attention)、交叉注意力(cross attention)、Luong注意力、Bahdanau注意力等。这些变体重新组合编码器端的输入,以将注意力效果重新分配到每个目标输出。通常而言,由点积得到的相关式矩阵提供了重新加权系数(参见图例)。

相关

  • 入声韵入声(checked tone、entering tone)是音韵学之概念,包括入声韵及入声调。在一般行文中,此二概念往往都混同、省称为入声。入声韵又称促声韵,是指传承自古代汉语之一类音节结构,其
  • 国营媒体国营广播是指由国家经营的广播机构或服务,在法律上可以行使国家权力,对国民进行主要宣传的统治性广播方式。国营广播大多分布在发展中国家、欧洲各国以及20世纪中后期的东方集
  • 康卡斯特康卡斯特集团(英语:Comcast Corporation),曾用名“康卡斯特控股公司(Comcast Holdings)”,是一家位于美国的全球通讯业综合企业集团;通过Xfinity(英语:Xfinity)品牌,其收入在全球电信及
  • 大英百科全书第十一版《大英百科全书第十一版》(英语: Eleventh Edition),或作《1911年版大英百科全书》,是《大英百科全书》最经典的一个版本,共29卷。它的出版也反映出美国出版商的新目标,并成为大英
  • 碧玉碧玉 ,又称铁石英。是个不透明和不纯的石英品种,通常呈现红色、绿色、黄色或棕色,少部分呈现蓝色。碧玉有光滑的表面,可作为装饰品或宝石,也可以抛光之后制作成花瓶或印章。这个
  • 魔侠震天雷《魔侠震天雷》(英语:Darkman),是一部1990年美国超级英雄电影,导演山姆·雷米融合黑暗与暴力的电影作品。亦获得少数支持者的喜爱及推崇,常被归类于次文化之列。本作塑造出有别于
  • Projekt MelodyProjekt Melody,简称Melody (日语:メロディー),是由美国动画建模师DigitrevX设计制作的虚拟主播,自称是世界上第一个色情虚拟主播。她于2019年7月开设推特账户,并从2020年2月开始在
  • 布鲁斯·鲍顿布鲁斯·鲍顿(Bruce Broughton,1945年3月8日-),美国作曲家,曾十次获得艾美奖。他主要为电视、电影、电子游戏制作配乐,也会创作些交响乐。当前,鲍顿在加州大学洛杉矶分校执教,担任作
  • 吉姆·洛斯克特夫吉姆·洛斯克特夫(英语:Jim Loscutoff,1930年2月4日-2015年12月1日),美国职业篮球运动员。吉姆·洛斯克特夫出生于美国加利福尼亚州圣弗朗西斯科,家庭有四个孩子。当他于1948年从帕罗奥多高中毕业时,已在篮球场备受瞩目。1955年,卢克斯特夫于第一轮第三顺位被波士顿凯尔特人选中。生涯九个赛季,他打前锋,并在60年代赢得了七座冠军。他也用防守帮助球队(NBA于1954年设立进攻24秒,尽管波士顿凯尔特人成为第一支场均得分破100分的球队,在1954-55赛季球队的平均失分也有101.5
  • 木下嘉七郎木下嘉七郎(日语:木下 嘉七郎/きのした かしちろう  */?,1873年9月6日-1908年9月10日),日本长崎县人,医学家,在台湾防治疟疾,1908年6月获绶勋六等瑞宝章。木下嘉七郎在明治六年(1873年)7月15日出生于长崎县西彼杵郡桦岛村(日语:樺島村 (長崎県西彼杵郡))(今长崎市桦岛町),1891年9月10日赴第五高等学校(今熊本大学)医学部就读,1895年毕业后进入壹岐病院担任医员。1896年获发医术开业免状,10月被任命为台湾公医,于台南县恒春支厅(今屏东县恒春镇)一带服务,12月于台北