学习率

✍ dations ◷ 2025-12-09 08:28:50 #学习率

在机器学习和统计学中,学习率(英语:Learning rate)是优化算法中的一个可调参数,它决定了每次迭代的步长,使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。

设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定,而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步,超过最小值;但过低的学习率会导致收敛速度变慢,或收敛于局部最小值。

为了加速收敛,防止振荡和陷入不理想的局部极小值,学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值,也可以使用其他方式选择。学习率计划表在学习过程中改变学习率,最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定:衰减(Decay)和动量(Momentum)。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置(当恒定学习率过高时,学习过程可能会在最小值附近震荡)。衰减率通常由超参数控制。

动量类似于从山上滚下来的球,我们希望球在最低点(对应于最低的误差)停留。当梯度方向长期一致时,动量可以加快学习速度(提高学习率),也能通过跳过局部最小值。动量由类似于球质量的超参数控制,而这一参数必须手动选择。当动量过大时,球会滚过希望找到的最小值;当动量过低时,它将不起作用。计算动量的公式比计算衰减的公式更复杂,但在常用的深度学习库(如Keras)中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素,学习率更新公式为:

η n + 1 = η n 1 + d n {displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}

其中 η {displaystyle eta } 是学习率。 d {displaystyle d} 是衰减参数,而 n {displaystyle n} 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为:

η n = η 0 d 1 + n r {displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}

其中 η n {displaystyle eta _{n}} 是在第 n {displaystyle n} 步的学习率, η 0 {displaystyle eta _{0}} 初始学习率, d {displaystyle d} 是每次下降时学习率的变化程度(0.5代表减半), r {displaystyle r} 对应下降率(即下降的频率,10代表每10此迭代下降一次)。向下取整函数( {displaystyle lfloor dots rfloor } )将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似,但使用的不是步,而是递减的指数函数。考虑到衰减的数学公式是:

η n = η 0 e d n {displaystyle eta _{n}=eta _{0}e^{-dn}}

其中 d {displaystyle d} 是衰减参数。

学习率计划表存在的问题是,学习率变换方式取决于超参数,而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题(如Adagrad、Adadelta、RMSprop和Adam),这些算法通常内置于深度学习库。

相关

  • 宇宙射线散裂宇宙射线散裂是自然发生的一种核分裂和核合成形式,它经由宇宙射线撞击物质产生新的元素。宇宙射线是来自地球之外的高能粒子,主要是飘荡在空间中的电子和α粒子。当宇宙射线(主
  • 美国最高法院大法官议长:南希·裴洛西(民主党) 多数党领袖(英语:Party leaders of the United States House of Representatives):斯坦利·霍耶(民主党) 少数党领袖(英语:Party leaders of the United Sta
  • 意大利人口意大利无论在语言还是在宗教方面都很单一,但文化、经济和政治则呈现多样性。意大利的人口密度为每平方公里193人,居欧洲第五位。从罗马文明至今,希腊人、日耳曼人和后来的凯尔
  • 上海县城墙上海县城墙是明朝嘉靖年间为抵御倭患护卫上海县治而兴建的城池,旧址位于上海市黄浦区南部。明嘉靖三十二年(1553年)九月,利用倭寇暂时退去的间隙,上海县民集资、捐地并担石运土,利
  • 星川皇子之乱星川皇子之乱(日语:星川皇子の乱),是479年雄略天皇死后二皇子星川稚宫皇子(日语:星川稚宮皇子)和皇太子白髪皇子的争位事件。星川皇子在他母亲吉备稚媛教导下试图通过占领大藏登天
  • Hardcore Gamer《Hardcore Gamer》是一个美国在线电子游戏杂志,由Steve Hannley发行。杂志创立于2005年,在转为在线发行之前,已经出版了36期刊物。
  • 伊藤贤治伊藤贤治(1968年7月5日-),昵称Itoken(イトケン),是日本电子游戏作曲与音乐家。他以圣剑传说系列和沙加系列作曲而知名,在生涯中为30余部电子游戏,另及15部专辑、音乐会和演出作编曲
  • 萨尔茨堡机场萨尔茨堡机场(德语:Salzburg Airport W. A. Mozart,IATA代码:SZG;ICAO代码:LOWS)的全称是萨尔茨堡沃尔夫冈·阿马多伊斯·莫扎特机场,是奥地利共和国萨尔茨堡州首府萨尔茨堡的国际机
  • 波兰境内的犹太人大屠杀波兰境内的犹太人大屠杀是纳粹德国在波兰占领区内实施的种族灭绝行动,以专门建造的灭绝营为特征。第二次世界大战期间,第三帝国的犹太人大屠
  • 四相四相,指“阿特曼相”(义译为“我相”,Ātman)、“补特伽罗相”(义译为“人相”,Pudgala)、“萨埵相”(义译为“众生相”,Sattva)、“至婆相”(义译为“寿者相”,Jīva)。此四相皆与婆罗门教与尼干子教信仰的“永恒不灭的灵魂”有关,是佛教《金刚经》与《圆觉经》指称的四种错误观念。由于佛教讲究无我,首先必须破除四相,避免我执。“阿特曼相”,即“我相”,认为“我”是有永恒不变灵魂的;“补特伽罗相”,即“人相”,认为“我”是以人类形式出现的“补特伽罗”,与禽兽、饿鬼等不同;“萨埵相”,即“众生相