学习率

✍ dations ◷ 2025-09-13 17:04:59 #学习率

在机器学习和统计学中,学习率(英语:Learning rate)是优化算法中的一个可调参数,它决定了每次迭代的步长,使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。

设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定,而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步,超过最小值;但过低的学习率会导致收敛速度变慢,或收敛于局部最小值。

为了加速收敛,防止振荡和陷入不理想的局部极小值,学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值,也可以使用其他方式选择。学习率计划表在学习过程中改变学习率,最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定:衰减(Decay)和动量(Momentum)。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置(当恒定学习率过高时,学习过程可能会在最小值附近震荡)。衰减率通常由超参数控制。

动量类似于从山上滚下来的球,我们希望球在最低点(对应于最低的误差)停留。当梯度方向长期一致时,动量可以加快学习速度(提高学习率),也能通过跳过局部最小值。动量由类似于球质量的超参数控制,而这一参数必须手动选择。当动量过大时,球会滚过希望找到的最小值;当动量过低时,它将不起作用。计算动量的公式比计算衰减的公式更复杂,但在常用的深度学习库(如Keras)中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素,学习率更新公式为:

η n + 1 = η n 1 + d n {displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}

其中 η {displaystyle eta } 是学习率。 d {displaystyle d} 是衰减参数,而 n {displaystyle n} 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为:

η n = η 0 d 1 + n r {displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}

其中 η n {displaystyle eta _{n}} 是在第 n {displaystyle n} 步的学习率, η 0 {displaystyle eta _{0}} 初始学习率, d {displaystyle d} 是每次下降时学习率的变化程度(0.5代表减半), r {displaystyle r} 对应下降率(即下降的频率,10代表每10此迭代下降一次)。向下取整函数( {displaystyle lfloor dots rfloor } )将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似,但使用的不是步,而是递减的指数函数。考虑到衰减的数学公式是:

η n = η 0 e d n {displaystyle eta _{n}=eta _{0}e^{-dn}}

其中 d {displaystyle d} 是衰减参数。

学习率计划表存在的问题是,学习率变换方式取决于超参数,而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题(如Adagrad、Adadelta、RMSprop和Adam),这些算法通常内置于深度学习库。

相关

  • 国家社会主义国家社会主义(德语:Nationaler Sozialismus;英语:National Socialism,又译民族社会主义)起源于十九世纪末叶的欧洲(1890年代),是主要在二十世纪上半叶于德国境内流行的政治思潮与运动
  • 施拉尔科格尔山坐标:47°06′35″N 11°01′09″E / 47.10972°N 11.01917°E / 47.10972; 11.01917施拉尔科格尔山(德语:Strahlkogel),是奥地利的山峰,位于该国西部,由蒂罗尔州负责管辖,属于斯图
  • 21·萨维奇谢亚·本·亚伯拉罕-约瑟夫(英语:Shéyaa Bin Abraham-Joseph,1992年10月22日 - ),知名于其艺名21·萨维奇(21 Savage),生于英国伦敦,成长并出道于美国亚特兰大的饶舌歌手、词曲作家
  • 净菜净菜是一种预包装的蔬菜,可分为即食鲜切和即用鲜切两种类型,经过分选、切割、清洗、杀菌消毒、包装等程序之后上市。消费者购买净菜后,可直接食用或下锅烹饪,无需进行处理。一些
  • 燃烧驱动《燃烧驱动》是一部由世嘉和讲谈社联合制作的跨媒体作品。漫画版于2008年上半年开始连载,而同名的游戏则于同年12月推出。游戏和漫画的主角不是同一人,不过他们同时都在两部作
  • 德兴巴格湖坐标:48°24′53.45″N 10°57′30.98″E / 48.4148472°N 10.9586056°E / 48.4148472; 10.9586056德兴巴格湖(德语:Derchinger Baggersee),是德国的湖泊,位于该国东南部,由巴伐利
  • 大马NTV7金视奖NTV7金视奖颁奖典礼(英语:Golden Awards)是两年一度马来西亚的中文电视传播界一项具代表性的盛事,设奖目的在于奖励杰出的电视从业人员以及电视艺人,使其成为马来西亚中文电视界
  • 桑特尔·茱莉叶桑特尔·茱莉叶(Chantal Juillet,1960年12月19日-),加拿大著名女小提琴演奏家。她6岁开始学习小提琴,先后在魁北克市和蒙特利尔师从名师。1969年,她获得魁北克音乐节一等奖。此后
  • 1,2-二(溴甲基)苯1,2-二(溴甲基)苯是一种有机化合物,化学式为C8H8Br2。它可由邻二甲苯和N-溴代丁二酰亚胺在过氧化苯甲酰的催化下于四氯化碳中反应制得。它和硒氰酸钾在丙酮中反应,可以得到二硒氰酸-1,2-苯二甲酯(C8H8(SeCN)2)。
  • 1327年