学习率

✍ dations ◷ 2025-12-06 07:28:10 #学习率

在机器学习和统计学中,学习率(英语:Learning rate)是优化算法中的一个可调参数,它决定了每次迭代的步长,使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。

设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定,而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步,超过最小值;但过低的学习率会导致收敛速度变慢,或收敛于局部最小值。

为了加速收敛,防止振荡和陷入不理想的局部极小值,学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值,也可以使用其他方式选择。学习率计划表在学习过程中改变学习率,最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定:衰减(Decay)和动量(Momentum)。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置(当恒定学习率过高时,学习过程可能会在最小值附近震荡)。衰减率通常由超参数控制。

动量类似于从山上滚下来的球,我们希望球在最低点(对应于最低的误差)停留。当梯度方向长期一致时,动量可以加快学习速度(提高学习率),也能通过跳过局部最小值。动量由类似于球质量的超参数控制,而这一参数必须手动选择。当动量过大时,球会滚过希望找到的最小值;当动量过低时,它将不起作用。计算动量的公式比计算衰减的公式更复杂,但在常用的深度学习库(如Keras)中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素,学习率更新公式为:

η n + 1 = η n 1 + d n {displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}

其中 η {displaystyle eta } 是学习率。 d {displaystyle d} 是衰减参数,而 n {displaystyle n} 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为:

η n = η 0 d 1 + n r {displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}

其中 η n {displaystyle eta _{n}} 是在第 n {displaystyle n} 步的学习率, η 0 {displaystyle eta _{0}} 初始学习率, d {displaystyle d} 是每次下降时学习率的变化程度(0.5代表减半), r {displaystyle r} 对应下降率(即下降的频率,10代表每10此迭代下降一次)。向下取整函数( {displaystyle lfloor dots rfloor } )将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似,但使用的不是步,而是递减的指数函数。考虑到衰减的数学公式是:

η n = η 0 e d n {displaystyle eta _{n}=eta _{0}e^{-dn}}

其中 d {displaystyle d} 是衰减参数。

学习率计划表存在的问题是,学习率变换方式取决于超参数,而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题(如Adagrad、Adadelta、RMSprop和Adam),这些算法通常内置于深度学习库。

相关

  • 发炎炎症反应、炎性反应,俗称炎症,是指具有血管系统的活体组织对致炎因子及局部损伤所发生的防御性为主的反应,中心环节是血管反应,是生物组织受到外伤、出血或病原感染等刺激,激发的
  • 屈光不正眼屈光不正(Refractive error),系指因眼球形状而让光无法成功聚焦在视网膜上的问题。常见的典型眼屈光不正有近视、远视、散光和老花眼等。近视是因为看远方物体会模糊不清楚,远
  • Tolypocladium inflatum多孔木霉(Tolypocladium inflatum),是一种无性子囊菌,最初分离自挪威的土壤,在一定的条件下能产生环孢素。原先分离出环孢素时,以为这种真菌属于木霉菌属(Trichoderma),因此将它命名
  • 林连玉林连玉(马来文/英文:Lim Lian Geok,1901年8月19日-1985年12月18日)是马来西亚华文教育工作者、教育家,出生于中国福建永春,原名林采居。他自1935年起在吉隆坡尊孔学校(后来改为尊孔独
  • 陈虚谷陈虚谷(1896年-1965年),原名陈满盈,笔名:一村、依菊、醉芬。彰化和美出身。日本明治大学毕业,是日治时期台湾文化协会的重要成员。1932年《台湾新民报》创刊,他与林攀龙、赖和、谢星
  • 最初的梦想 (歌曲)最初的梦想是一首由台湾女歌手范玮琪翻唱自日本女歌手中岛美雪所演唱的日剧《小孤岛大医生》主题曲《骑在银龙的背上(日语:銀の龍の背に乗って)》的歌曲。《最初的梦想》由姚若
  • 大和国风土记《大和国风土记》(やまとのくにふどき)乃是日本奈良时代初期编纂完成、关于大和国(今近畿地方奈良县)的风土记。原书已散佚,故以下为佚文记述。风土记曰,位于宇陀郡篠幡庄的御杖神
  • 荒川敏行荒川敏行(日语:荒川敏行,英语:Arakawa Toshiyuki,1953年-),毕业于中央大学文学系,其后加入日本谷伦美亚唱片公司成为制作总监。他目前是音乐制作人、编曲家和歌手。荒川为多个动漫创
  • 诺马·贾西亚帕拉诺马·贾西亚帕拉(Nomar Garciaparra,1973年7月23日-)为美国的棒球选手之一,在2010年3月10日宣布退休。
  • 康斯坦丁·马科夫斯基康斯坦丁·耶格洛维奇·马科夫斯基(俄语:Константин Егорович Маковский,1839年6月20日[儒略历7月2日]-1915年9月17日[儒略历9月30日]) 是具有影响力的俄罗斯绘画大师。以肖像画和历史题材见长。康斯坦丁出生于莫斯科,父亲是俄罗斯业余肖像画家,名为叶戈尔·伊凡诺维奇·马科夫斯基。康斯坦丁是家中长子,母亲是一个作曲家,并期望子承母业。1915年康斯坦丁由于他的马车和电车的交通事故在圣彼得堡丧生。