学习率

✍ dations ◷ 2025-07-06 09:56:51 #学习率

在机器学习和统计学中,学习率(英语:Learning rate)是优化算法中的一个可调参数,它决定了每次迭代的步长,使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。

设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定,而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步,超过最小值;但过低的学习率会导致收敛速度变慢,或收敛于局部最小值。

为了加速收敛,防止振荡和陷入不理想的局部极小值,学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值,也可以使用其他方式选择。学习率计划表在学习过程中改变学习率,最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定:衰减(Decay)和动量(Momentum)。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置(当恒定学习率过高时,学习过程可能会在最小值附近震荡)。衰减率通常由超参数控制。

动量类似于从山上滚下来的球,我们希望球在最低点(对应于最低的误差)停留。当梯度方向长期一致时,动量可以加快学习速度(提高学习率),也能通过跳过局部最小值。动量由类似于球质量的超参数控制,而这一参数必须手动选择。当动量过大时,球会滚过希望找到的最小值;当动量过低时,它将不起作用。计算动量的公式比计算衰减的公式更复杂,但在常用的深度学习库(如Keras)中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素,学习率更新公式为:

η n + 1 = η n 1 + d n {displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}

其中 η {displaystyle eta } 是学习率。 d {displaystyle d} 是衰减参数,而 n {displaystyle n} 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为:

η n = η 0 d 1 + n r {displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}

其中 η n {displaystyle eta _{n}} 是在第 n {displaystyle n} 步的学习率, η 0 {displaystyle eta _{0}} 初始学习率, d {displaystyle d} 是每次下降时学习率的变化程度(0.5代表减半), r {displaystyle r} 对应下降率(即下降的频率,10代表每10此迭代下降一次)。向下取整函数( {displaystyle lfloor dots rfloor } )将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似,但使用的不是步,而是递减的指数函数。考虑到衰减的数学公式是:

η n = η 0 e d n {displaystyle eta _{n}=eta _{0}e^{-dn}}

其中 d {displaystyle d} 是衰减参数。

学习率计划表存在的问题是,学习率变换方式取决于超参数,而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题(如Adagrad、Adadelta、RMSprop和Adam),这些算法通常内置于深度学习库。

相关

  • 硫酸氧钒硫酸氧钒(IV),VOSO4,是钒的一个常见无机化合物。以三水合物和五水合物最为常见,而六水合物仅在13.6°C下存在。市售品的则未指定结晶水含量。这种极易潮解的蓝色固体是实验室中
  • span class=nowrapTbPOsub4/sub/span磷酸铽是一种无机化合物,化学式为TbPO4,它可由磷酸钠和氯化铽在溶液中反应得到,沉淀出的二水合物在800°C灼烧,可以得到无水物。磷酸铽在3660 A的紫外光下可以发出橙黄色的荧光,
  • 天主教利耶帕亚教区天主教利耶帕亚教区(拉丁语:Dioecesis Liepaiensis、拉脱维亚语:Jelgavas diecēze)是罗马天主教在拉脱维亚的一个教区,属天主教里加总教区。成立于1937年5月8日。 教区包括传统
  • 秘鲁军事秘鲁军(西班牙语:Fuerzas Armadas del Perú)为南美洲秘鲁一支中型武装部队,陆海空总计约14万人其中陆军8.5万人,海军2.7万人,空军1.7万人。另有准军事部队7.8万人,其中国民警察7.7
  • 苏黎世音乐厅管弦乐团苏黎世音乐厅管弦乐团(德语:Tonhalle-Orchester Zürich)位于瑞士苏黎世,创立于1868年。乐队1895年起在苏黎世音乐厅演出,被认为是世界上最好的音乐厅之一。苏黎世“综合音乐协会
  • 夷酋列像《夷酋列像》是江户时代后期松前藩的家老、画家蛎崎波响(日语:蠣崎波響)的一组肖像画,绘制了当时阿伊努人的十二名首领。宽政元年(1789年),国后岛和目梨因不满大和人商人的残酷而起
  • JunofloJunoflo(韩语:주노플로 ,本名朴俊浩(韩语:박준호),1992年9月25日-),韩裔美籍韩国饶舌歌手。2016年10月加入Tiger JK成立的Feel GHood Music。参加Show Me The Money 5 在1:1 Battle与
  • 闫大鹏闫大鹏(1956年4月-),山东德州人,汉族,中国共产党党员‎。中华人民共和国政治人物、第十三届全国人民代表大会湖北省代表。2018年,闫大鹏被选为湖北省出席第十三届全国人民代表大会代表。
  • 阿兰·彼得松古斯塔夫·阿兰·彼得松(瑞典语:Gustav Allan Pettersson,1911年9月19日-1980年6月20日),瑞典作曲家。早年曾在斯德哥尔摩和巴黎学习中提琴演奏,后又从奥涅格学作曲。回国后由于身体原因长期休养。彼得松是20世纪下半叶最重要的瑞典作曲家之一,也是20世纪重要的交响曲作曲家。其管弦乐作品大多为单乐章形式,规模宏大以至于冗长,使用复杂的对位法,但始终保持调性,音乐语言受马勒和奥涅格的影响很大。CPO(英语:Classic Produktion Osnabrück)公司录制了他的大
  • DataPowerDataPower是一家IBM公司所属的公司,该公司主要在于研制与销售XML应用机(XML appliance),此种设备专门用来执行与处理XML讯息。DataPower也是第一家针对XSLT加速处理而为产品研制及运用特定应用集成电路(application-specific integrated circuit,简称:ASIC)的业者。DataPower很早即将自己定位在“XML处理”领域的创新业者,XML讯息如今已经成为面向服务的体系结构(Service oriented architecture,简