学习率

✍ dations ◷ 2025-09-18 20:10:23 #学习率

在机器学习和统计学中,学习率(英语:Learning rate)是优化算法中的一个可调参数,它决定了每次迭代的步长,使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。

设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定,而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步,超过最小值;但过低的学习率会导致收敛速度变慢,或收敛于局部最小值。

为了加速收敛,防止振荡和陷入不理想的局部极小值,学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值,也可以使用其他方式选择。学习率计划表在学习过程中改变学习率,最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定:衰减(Decay)和动量(Momentum)。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置(当恒定学习率过高时,学习过程可能会在最小值附近震荡)。衰减率通常由超参数控制。

动量类似于从山上滚下来的球,我们希望球在最低点(对应于最低的误差)停留。当梯度方向长期一致时,动量可以加快学习速度(提高学习率),也能通过跳过局部最小值。动量由类似于球质量的超参数控制,而这一参数必须手动选择。当动量过大时,球会滚过希望找到的最小值;当动量过低时,它将不起作用。计算动量的公式比计算衰减的公式更复杂,但在常用的深度学习库(如Keras)中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素,学习率更新公式为:

η n + 1 = η n 1 + d n {displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}

其中 η {displaystyle eta } 是学习率。 d {displaystyle d} 是衰减参数,而 n {displaystyle n} 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为:

η n = η 0 d 1 + n r {displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}

其中 η n {displaystyle eta _{n}} 是在第 n {displaystyle n} 步的学习率, η 0 {displaystyle eta _{0}} 初始学习率, d {displaystyle d} 是每次下降时学习率的变化程度(0.5代表减半), r {displaystyle r} 对应下降率(即下降的频率,10代表每10此迭代下降一次)。向下取整函数( {displaystyle lfloor dots rfloor } )将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似,但使用的不是步,而是递减的指数函数。考虑到衰减的数学公式是:

η n = η 0 e d n {displaystyle eta _{n}=eta _{0}e^{-dn}}

其中 d {displaystyle d} 是衰减参数。

学习率计划表存在的问题是,学习率变换方式取决于超参数,而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题(如Adagrad、Adadelta、RMSprop和Adam),这些算法通常内置于深度学习库。

相关

  • 烷基磺酸酯类磺酸酯为磺酸的有机酯,都含有R-SO2O−官能团。磺酸酯具有通式:R1SO2OR2。如R2基团为甲基,R1基团为三氟甲基,则化合物为三氟甲磺酸酯。由于RSO2O−基团在SN1,SN2,E1和E2反应中是一
  • 第br /九第八第十埃及第九王朝(英文:Ninth dynasty of Egypt)为埃及历史上的一个朝代,确切时间可能在前2160年—前2130年,是一个短暂的王朝,建立后不久灭亡,接替它的是第十王朝。都城在底比
  • 疏水效应疏水效应(英语:Hydrophobic effect)又称疏水性效应,属于非极性分子的一种性质,会使这些分子在水溶液中具有自我聚集(self-associate)的特性。例如油在水中会呈现与水分离的现象。此
  • 毛际可毛际可(1633年-1708年),字会侯,号鹤舫,晚号松皋老人。遂安(今属浙江)人。顺治十五年(1658年)进士,官河南彰德府(今安阳市)推官,政绩卓著,改陕西城固县知县。康熙十八年(1679年)举博学鸿词科,康
  • 无危物种无危物种又称低关注度物种,是国际自然保护联盟对物种保护现状分类之一,指现存的物种中被评估为不属于其他分类的物种。它们既不是濒危物种、也不是近危物种,亦不是需要保护生存
  • 旗印旗印(日语:旗印,假名:はたじるし),系中世纪日本最常用的一种军旗。和后来被固定好的“帜(日语:幟)”不同,旗印的仅仅是一面通过一片水平方向的横片连结到旗杆上的朴素旗帜。旗印的不少
  • 国立台湾大学哲学系国立台湾大学哲学系(英语:Department of Philosophy, National Taiwan University),简称台大哲学系,前身为“台北帝国大学文政学部哲学科”,是全台湾最早成立的哲学系所,培养出许多
  • 乍得火山列表所有坐标的地图 - OSM 所有坐标的地图 - Google 所有上至200个坐标的地图 - Bing本列表列出乍得的活火山与死火山。
  • 黄季敏黄季敏(1952年4月4日-),台湾消防官员,2003年至2009年担任消防署署长,于2002至2006年间在“UH1H直升机监控派遣监控系统”等九项采购案,收贿一千九百廿四万元,2012年被查获遭收押。黄季敏父亲为早年警界高官退休,本身民国59年毕业于台中一中,中央警察大学学士,南华大学生死学研究所人文学硕士,中央警察大学犯罪防治研究所博士班。黄季敏于2002至2006年间在“UH1H直升机监控派遣监控系统”、“防救灾专用卫星通讯系统及现场通信救灾指挥车暨整合平台建置案”等九项采购案,收贿一千九百廿四万
  • 林边放索普龙殿坐标:.mw-parser-output .geo-default,.mw-parser-output .geo-dms,.mw-parser-output .geo-dec{display:inline}.mw-parser-output .geo-nondefault,.mw-parser-output .geo-multi-punct{display:none}.mw-parser-output .longitude,.mw-parser-output .latitude{white-space:n