学习率

✍ dations ◷ 2025-12-02 17:49:23 #学习率

在机器学习和统计学中,学习率(英语:Learning rate)是优化算法中的一个可调参数,它决定了每次迭代的步长,使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。

设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定,而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步,超过最小值;但过低的学习率会导致收敛速度变慢,或收敛于局部最小值。

为了加速收敛,防止振荡和陷入不理想的局部极小值,学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值,也可以使用其他方式选择。学习率计划表在学习过程中改变学习率,最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定:衰减(Decay)和动量(Momentum)。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置(当恒定学习率过高时,学习过程可能会在最小值附近震荡)。衰减率通常由超参数控制。

动量类似于从山上滚下来的球,我们希望球在最低点(对应于最低的误差)停留。当梯度方向长期一致时,动量可以加快学习速度(提高学习率),也能通过跳过局部最小值。动量由类似于球质量的超参数控制,而这一参数必须手动选择。当动量过大时,球会滚过希望找到的最小值;当动量过低时,它将不起作用。计算动量的公式比计算衰减的公式更复杂,但在常用的深度学习库(如Keras)中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素,学习率更新公式为:

η n + 1 = η n 1 + d n {displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}

其中 η {displaystyle eta } 是学习率。 d {displaystyle d} 是衰减参数,而 n {displaystyle n} 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为:

η n = η 0 d 1 + n r {displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}

其中 η n {displaystyle eta _{n}} 是在第 n {displaystyle n} 步的学习率, η 0 {displaystyle eta _{0}} 初始学习率, d {displaystyle d} 是每次下降时学习率的变化程度(0.5代表减半), r {displaystyle r} 对应下降率(即下降的频率,10代表每10此迭代下降一次)。向下取整函数( {displaystyle lfloor dots rfloor } )将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似,但使用的不是步,而是递减的指数函数。考虑到衰减的数学公式是:

η n = η 0 e d n {displaystyle eta _{n}=eta _{0}e^{-dn}}

其中 d {displaystyle d} 是衰减参数。

学习率计划表存在的问题是,学习率变换方式取决于超参数,而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题(如Adagrad、Adadelta、RMSprop和Adam),这些算法通常内置于深度学习库。

相关

  • 细胞衣糖萼(也称为细胞外基质)是糖蛋白和糖脂覆盖物,其围绕在一些细菌,上皮细胞和其他细胞的细胞膜上。大多数动物上皮细胞在其质膜的外表面上具有类似绒毛的涂层。 该涂层由几种膜糖
  • 南洋水师南洋水师或称南洋舰队、南洋海军,是清朝洋务运动中建立的清朝新式海军的其中一支现代化的海军舰队,于1875年由时任两江总督兼南洋通商大臣沈葆桢建立。至1884年,中法战争前已经
  • 交叉熵在信息论中,基于相同事件测度的两个概率分布 p {\displaystyle p} 相对于的)。对于离散分布 p {\displa
  • 南特影展三洲影展(法语:Festival des 3 Continents),通常称作南特影展,是每年在法国南特举办的影展,与其他各大影展多由欧洲、美加电影垄断不同的是,南特影展是特别将亚洲、非洲、拉丁美
  • 迦梨陀娑迦梨陀娑(天城文:कालिदास,拉丁化:Kālidāsa)是知名的梵文剧作家和诗人,其剧作及诗词多基于印度往世书。惟其生平大多仍属未知,仅能从剧作及诗词中推测,其在世期间尚无法准确
  • 胡斗南胡斗南(1905年-1949年),满族人,生于齐齐哈尔。本名胡溶光,字斗南,曾用笔名有庸任、梅庵、百药等。7岁读私塾,一年后进入北路初等工业学堂,后考进甲等工业学校。后到齐齐哈尔邮政局工
  • 成知勋成知勋(韩语:성지훈,1962年10月26日-),是韩流乐坛的音讯工程师,LIVE工程师和词曲作者。1980年,他为作曲家出道,以后移民到美国。在美国新泽西州生活,往来韩国活跃。2009年,放弃美国公民
  • 繁昌站繁昌站是位于安徽省芜湖市繁昌区繁阳镇的一个铁路车站,邮政编码241200。车站建于1969年,有宁铜铁路经过该站,现仅办理货运,不办理客运业务,车站及其上下行区间均未电气化。车站距
  • 达里娅·比洛季德达里娅·根纳季耶芙娜·比洛季德(乌克兰语:Дар'я Геннадіївна Білодід,2000年10月10日-)生于基辅,是一名乌克兰女子柔道运动员,主攻48公斤级。达里娅的父亲根纳季·比洛季德(英语:Gennadiy Bilodid)曾获得2005年世界柔道锦标赛铜牌。根纳季和妻子斯韦特兰娜原本并没有让女儿从事柔道的想法,两人希望她成为艺术体操选手,后来达里娅看到父母在道场中训练后,便开始对柔道感兴趣并接触了这项运动。2018年9月,达里娅参加世界柔道锦标赛,获得女子48公斤级的冠军,以17岁3
  • 祭海节祭海节,兴盛于青岛市即墨区田横镇周戈庄村的一项传统的祭海活动,已有500多年的历史。于2004年3月18日再次举办,即墨政府将此次活动命名为“民俗文化祭海节”。即墨“祭海”文化始于明朝,传说,在周戈庄西侧2.5公里外有一座黄山,山上有一个仙姑庙。在清朝末期,渔民每年出海前(农历四月初八),都要到庙里求仙姑保佑他们能一帆风顺,因此这一传统逐渐延续下来。