学习率

✍ dations ◷ 2025-12-05 03:20:25 #学习率

在机器学习和统计学中,学习率(英语:Learning rate)是优化算法中的一个可调参数,它决定了每次迭代的步长,使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。

设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定,而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步,超过最小值;但过低的学习率会导致收敛速度变慢,或收敛于局部最小值。

为了加速收敛,防止振荡和陷入不理想的局部极小值,学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值,也可以使用其他方式选择。学习率计划表在学习过程中改变学习率,最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定:衰减(Decay)和动量(Momentum)。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置(当恒定学习率过高时,学习过程可能会在最小值附近震荡)。衰减率通常由超参数控制。

动量类似于从山上滚下来的球,我们希望球在最低点(对应于最低的误差)停留。当梯度方向长期一致时,动量可以加快学习速度(提高学习率),也能通过跳过局部最小值。动量由类似于球质量的超参数控制,而这一参数必须手动选择。当动量过大时,球会滚过希望找到的最小值;当动量过低时,它将不起作用。计算动量的公式比计算衰减的公式更复杂,但在常用的深度学习库(如Keras)中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素,学习率更新公式为:

η n + 1 = η n 1 + d n {displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}

其中 η {displaystyle eta } 是学习率。 d {displaystyle d} 是衰减参数,而 n {displaystyle n} 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为:

η n = η 0 d 1 + n r {displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}

其中 η n {displaystyle eta _{n}} 是在第 n {displaystyle n} 步的学习率, η 0 {displaystyle eta _{0}} 初始学习率, d {displaystyle d} 是每次下降时学习率的变化程度(0.5代表减半), r {displaystyle r} 对应下降率(即下降的频率,10代表每10此迭代下降一次)。向下取整函数( {displaystyle lfloor dots rfloor } )将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似,但使用的不是步,而是递减的指数函数。考虑到衰减的数学公式是:

η n = η 0 e d n {displaystyle eta _{n}=eta _{0}e^{-dn}}

其中 d {displaystyle d} 是衰减参数。

学习率计划表存在的问题是,学习率变换方式取决于超参数,而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题(如Adagrad、Adadelta、RMSprop和Adam),这些算法通常内置于深度学习库。

相关

  • 天体化学天体化学(英语:Astrochemistry),又称天体化学;天体化学研究宇宙中元素和分子的丰度,以及它们和辐射的相互作用;还研究星际间气体和尘埃间的相互作用,特别是分子气体云的形成、相互作
  • 基因表达谱基因表达谱是一种在分子生物学领域,借助cDNA、表达序列标签(EST)或寡核苷酸芯片来测定细胞基因表达情况(包括特定基因是否表达、表达丰度、不同组织、不同发育阶段以及不同生理
  • 轨道根数轨道根数(或称轨道要素或轨道参数)是描述在牛顿运动定律和牛顿万有引力定律的作用下的天体或航天器,在其开普勒轨道上运动时,确定其轨道所必要的六个参数。由于运动的方式有许多
  • 拉卡托什·伊姆雷拉卡托什·伊姆雷(匈牙利语:Lakatos Imre,1922年11月9日-1974年2月2日),又译伊姆雷·拉卡托斯,匈牙利数学哲学与科学哲学家,批判地继承了波普尔的科学哲学理论,提出了科学研究纲领方
  • 多元变量统计多元变量统计(Multivariate statistics,或作Multivariate statistical analysis、Multivariate analysis,多因素分析、多重变量分析)是社会学、医学、金融、数量心理学、市场营
  • 横渡钱塘江横渡钱塘江活动是由杭州市体育局、市体育总会主办,杭州市水上救生协会承办的横渡钱塘江游泳群众活动和赛事,2006年首次举办,每年一次在夏季举行,设置有群众性横渡和公开水域游泳
  • 联合左翼 (西班牙)联合左翼(西班牙语:Izquierda Unida,缩写为IU)是西班牙的一个左翼政党联盟。1986年4月,联合左翼作为政党联盟和选举联盟成立。创始成员有:西班牙共产党、争取工人团结集体-安达卢西
  • 克罗地亚世界遗产名录根据联合国教育、科学及文化组织1972年制订的《保护世界文化和自然遗产公约》,世界遗产是指对全人类有重要文化或自然价值的遗产项目。克罗地亚于1991年6月25日从南斯拉夫独立,1992年7月6日继承公约。截至2020年7月,克罗地亚共有十项遗产入选。首先是在1979年第三届教科文组织会议上列入的布里特威斯湖国家公园、斯普利特古建筑群及戴克里先宫殿,以及杜布罗夫尼克古城,后在1997、2000、2008、2016和2017年均有新遗产入选。所有项目根据教科文组织的入选标准分成八个文化遗产和四个自然遗产。另外
  • 瑶医学瑶族传统医学,简称瑶医学,是流传在瑶族聚居地方的一种传统医学,是瑶族医药学理论和治疗方法所形成的民族医学。 广西中医药大学瑶医药学院
  • 布莉姬·朗迪-潘恩布莉姬·朗迪-潘恩(英语:Brigette Lundy-Paine,1994年8月10日-)是一位美国演员,知名的作品有在《异类》中饰演Casey Gardner,以及2020年电影《阿比阿弟寻歌大冒险》的Billie Logan。朗迪-潘恩于2019年11月公开自己为非二元性别,并使用英语:they/them作为人称代词。