学习率

✍ dations ◷ 2025-11-27 23:49:56 #学习率

在机器学习和统计学中,学习率(英语:Learning rate)是优化算法中的一个可调参数,它决定了每次迭代的步长,使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。

设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定,而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步,超过最小值;但过低的学习率会导致收敛速度变慢,或收敛于局部最小值。

为了加速收敛,防止振荡和陷入不理想的局部极小值,学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值,也可以使用其他方式选择。学习率计划表在学习过程中改变学习率,最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定:衰减(Decay)和动量(Momentum)。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置(当恒定学习率过高时,学习过程可能会在最小值附近震荡)。衰减率通常由超参数控制。

动量类似于从山上滚下来的球,我们希望球在最低点(对应于最低的误差)停留。当梯度方向长期一致时,动量可以加快学习速度(提高学习率),也能通过跳过局部最小值。动量由类似于球质量的超参数控制,而这一参数必须手动选择。当动量过大时,球会滚过希望找到的最小值;当动量过低时,它将不起作用。计算动量的公式比计算衰减的公式更复杂,但在常用的深度学习库(如Keras)中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素,学习率更新公式为:

η n + 1 = η n 1 + d n {displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}

其中 η {displaystyle eta } 是学习率。 d {displaystyle d} 是衰减参数,而 n {displaystyle n} 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为:

η n = η 0 d 1 + n r {displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}

其中 η n {displaystyle eta _{n}} 是在第 n {displaystyle n} 步的学习率, η 0 {displaystyle eta _{0}} 初始学习率, d {displaystyle d} 是每次下降时学习率的变化程度(0.5代表减半), r {displaystyle r} 对应下降率(即下降的频率,10代表每10此迭代下降一次)。向下取整函数( {displaystyle lfloor dots rfloor } )将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似,但使用的不是步,而是递减的指数函数。考虑到衰减的数学公式是:

η n = η 0 e d n {displaystyle eta _{n}=eta _{0}e^{-dn}}

其中 d {displaystyle d} 是衰减参数。

学习率计划表存在的问题是,学习率变换方式取决于超参数,而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题(如Adagrad、Adadelta、RMSprop和Adam),这些算法通常内置于深度学习库。

相关

  • 球菌球菌(拉丁语:coccus,复数cocci)是一类外观呈球形或近似球形的细菌。根据排列方式的不同,球菌可分为单球菌、双球菌、链球菌、四联球菌、八叠球菌以及葡萄球菌等。细菌疾病 · 科
  • 光时光时(Light hour)是长度单位之一,是光于一小时在真空所行走的距离,一光时相等于1,079,252,848,800米(~ 1.08兆米)。但由于以光时这个单位测量恒星显得太小,而测量太阳系天体又显得
  • 番薯番薯(学名:Ipomoea batatas,又名地瓜、甘薯、红薯、红苕、白薯,中国农业部系统称之为甘薯,中国食品工业称之为红薯)为旋花科番薯属的一种,是常见的多年生双子叶植物,草本,其蔓细长,茎
  • 保安车站保安车站位于台南市仁德区,为台湾铁路管理局纵贯线的铁路车站。永保安康车票即为永康车站至保安车站的车票,并掀起热卖话题。2000及2001年因受永保安康车票热销影响,旅客人次大
  • 中野昭庆中野昭庆(日语:中野 昭慶,英语:Teruyoshi Nakano,1935年10月9日-)是日本电影特效导演,摄影师。长年事师于圆谷英二,并为日本当代的特摄电影和哥斯拉系列电影进行拍摄。出生于满洲国安
  • 欧洲民航会议欧洲民航会议 (英语:European Civil Aviation ConferenceECAC或 Conférence Européenne de l'Aviation Civile CEAC)是一个跨政府组织,1955年由国际民用航空组织和欧洲委员会
  • 和谐中心和谐中心(拉脱维亚语:Saskaņas Centrs,缩写为SC)是拉脱维亚的一个已解散的政党联盟。该联盟成立于2005年,由民族和谐党、社会民主党、新中心、陶格夫匹尔斯市党和拉脱维亚社会党
  • 摩托车道摩托车道是特别提供摩托车,也可能开放非机动车(例如自行车)行驶的道路、车道。在台湾,机慢车道为摩托车(于法规中被定义为快车)、慢车专用或者优先之车道,常见于各大桥梁、特定路段
  • 迈克尔·贝作品列表迈克尔·贝是一位美国男导演、制片人兼演员。贝的职业生涯从执导MV和商业广告开始,其中包括赢得克里奥国际广告奖(英语:Clio Awards)的1992年美国红十字会广告、1993年牛奶广告
  • 王道树王道树(1966年3月-),男,汉族,安徽无为人,1992年4月加入中国共产党,中华人民共和国政治人物。1988至1990年在合肥师范学院(原安徽教育学院)教育管理系教育管理本科专业学习。1993年毕业于北京师范大学,获教育学硕士学位。1999年毕业于厦门大学财政金融学院财政学专业,获经济学博士学位。1983年8月参加工作,历任安徽省无为县三汊河中学、保安中学教师。1993年进入国家税务局工作,历任国家税务局教育中心干部、副主任科员、主任科员,国家税务总局办公厅秘书处主任科员、副处级秘书,政策法规司税制改