学习率

✍ dations ◷ 2025-12-04 07:21:47 #学习率

在机器学习和统计学中,学习率(英语:Learning rate)是优化算法中的一个可调参数,它决定了每次迭代的步长,使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。

设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定,而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步,超过最小值;但过低的学习率会导致收敛速度变慢,或收敛于局部最小值。

为了加速收敛,防止振荡和陷入不理想的局部极小值,学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值,也可以使用其他方式选择。学习率计划表在学习过程中改变学习率,最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定:衰减(Decay)和动量(Momentum)。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置(当恒定学习率过高时,学习过程可能会在最小值附近震荡)。衰减率通常由超参数控制。

动量类似于从山上滚下来的球,我们希望球在最低点(对应于最低的误差)停留。当梯度方向长期一致时,动量可以加快学习速度(提高学习率),也能通过跳过局部最小值。动量由类似于球质量的超参数控制,而这一参数必须手动选择。当动量过大时,球会滚过希望找到的最小值;当动量过低时,它将不起作用。计算动量的公式比计算衰减的公式更复杂,但在常用的深度学习库(如Keras)中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素,学习率更新公式为:

η n + 1 = η n 1 + d n {displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}

其中 η {displaystyle eta } 是学习率。 d {displaystyle d} 是衰减参数,而 n {displaystyle n} 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为:

η n = η 0 d 1 + n r {displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}

其中 η n {displaystyle eta _{n}} 是在第 n {displaystyle n} 步的学习率, η 0 {displaystyle eta _{0}} 初始学习率, d {displaystyle d} 是每次下降时学习率的变化程度(0.5代表减半), r {displaystyle r} 对应下降率(即下降的频率,10代表每10此迭代下降一次)。向下取整函数( {displaystyle lfloor dots rfloor } )将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似,但使用的不是步,而是递减的指数函数。考虑到衰减的数学公式是:

η n = η 0 e d n {displaystyle eta _{n}=eta _{0}e^{-dn}}

其中 d {displaystyle d} 是衰减参数。

学习率计划表存在的问题是,学习率变换方式取决于超参数,而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题(如Adagrad、Adadelta、RMSprop和Adam),这些算法通常内置于深度学习库。

相关

  • 胎儿发育产前(Prenatal)或产前发育(Prenatal development)是人类胚胎或胎儿在孕期的孕育过程,从受精,至诞生。通常,也可使用术语胚胎发育、胎儿发育,或胚胎学来表示。胚胎发育始于受精。
  • 范式范式(Paradigm),或典范,又可称为世界观(world view),由托马斯·库恩《科学革命的结构》提出。在1960年之后是指在科学领域和知识论行文中的思维的方式。范式过去被用来描述科学上截
  • 驱逐舰驱逐舰(英语:destroyer)是一种多用途的军舰,1890年代至今海军最重要的船种之一。美规常用代号为DD。从前是负责配合主力攻击的战列舰与巡洋舰的支援工作,但自从二战后航母开始流
  • 海军中将海军中将(英语:Vice admiral)是一个海军军阶,仅次于海军上将。在大多数国家,海军中将属于三星级将(参见北约军阶标准)。但在中华民国、俄罗斯、中华人民共和国、墨西哥、古巴、伊朗
  • JR新宿未来塔JR新宿未来塔(日语:JR新宿ミライナタワー,英语:JR SHINJUKU MIRAINA TOWER)是位于日本东京都新宿区新宿四丁目和涩谷区千駄谷五丁目交界处的一座综合商业设施。JR新宿未来塔是一
  • 沙图瓦拉二世沙图瓦拉二世(约公元前13世纪前后在位)(英语:Shattuara II)米坦尼的胡里特人的国王之一。继承瓦萨沙塔之位,他在位期间米坦尼完全为亚述所占领,他亦被亚述人所推翻,此后米坦尼作为独
  • 齿龈铅线铅线(英文:lead line 或 Burton's line),为一种铅中毒。1840年由英国的亨利·巴顿医师所纪录,主要为铅所引起的临床标志。患者可以看到牙龈会出现紫蓝色的铅线(很少见于幼儿)。铅在
  • 多尖齿果蝠属多尖齿果蝠属(怀氏多尖齿果蝠),哺乳纲、翼手目、狐蝠科的一属,而与多尖齿果蝠属(怀氏多尖齿果蝠)同科的动物尚有锤头果蝠属(锤头果蝠)、偏齿果蝠属(偏齿果蝠)、简果蝠属(简果蝠)、饰肩果
  • 克劳斯克劳斯(Klaus、Kraus或Krauss)可以指:
  • 有效利他主义有效利他主义(Effective altruism),又称为有效利他理念,是一个哲学与社群,以改善世界为目的,理性思维去推导有效的改善方式,并且力行实践。这个主义原先存在于其他道德哲学里,但于2000年起,在彼得·辛格和威廉·麦卡斯基(英语:William MacAskill)等哲学家的推广下,“有效利他”这个名词才被确立,这个社群才开始茁壮。有效利他主义以改善世界为目的,和一般利他主义的理念不太相同。一般利他主义注重施予者/项目的善意(企业强制捐献、互惠性的捐款、或是捐款给对其个人有所影响的机构),一般