学习率

✍ dations ◷ 2025-12-10 08:54:37 #学习率

在机器学习和统计学中，学习率（英语：Learning rate）是优化算法中的一个可调参数，它决定了每次迭代的步长，使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息，暗示了机器学习模型 "学习 "的速度。在自适应控制中，学习率通常被称为增益（Gain）。

设置学习率需要在收敛速度和过冲（Overshooting）之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定，而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步，超过最小值；但过低的学习率会导致收敛速度变慢，或收敛于局部最小值。

为了加速收敛，防止振荡和陷入不理想的局部极小值，学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值，也可以使用其他方式选择。学习率计划表在学习过程中改变学习率，最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定：衰减（Decay）和动量（Momentum）。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置（当恒定学习率过高时，学习过程可能会在最小值附近震荡）。衰减率通常由超参数控制。

动量类似于从山上滚下来的球，我们希望球在最低点（对应于最低的误差）停留。当梯度方向长期一致时，动量可以加快学习速度（提高学习率），也能通过跳过局部最小值。动量由类似于球质量的超参数控制，而这一参数必须手动选择。当动量过大时，球会滚过希望找到的最小值；当动量过低时，它将不起作用。计算动量的公式比计算衰减的公式更复杂，但在常用的深度学习库（如Keras）中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素，学习率更新公式为：

${displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}$ ${displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}$

其中 ${displaystyle eta }$ $eta$ 是学习率。 ${displaystyle d}$ $d$ 是衰减参数，而 ${displaystyle n}$ $n$ 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为：

${displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}$ ${displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}$

其中 ${displaystyle eta _{n}}$ ${displaystyle eta _{n}}$ 是在第 ${displaystyle n}$ $n$ 步的学习率， ${displaystyle eta _{0}}$ ${displaystyle eta _{0}}$ 初始学习率， ${displaystyle d}$ $d$ 是每次下降时学习率的变化程度（0.5代表减半）， ${displaystyle r}$ $r$ 对应下降率（即下降的频率，10代表每10此迭代下降一次）。向下取整函数（ ${displaystyle lfloor dots rfloor }$ ${displaystyle lfloor dots rfloor }$ ）将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似，但使用的不是步，而是递减的指数函数。考虑到衰减的数学公式是：

${displaystyle eta _{n}=eta _{0}e^{-dn}}$ ${displaystyle eta _{n}=eta _{0}e^{-dn}}$

其中 ${displaystyle d}$ $d$ 是衰减参数。

学习率计划表存在的问题是，学习率变换方式取决于超参数，而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题（如Adagrad、Adadelta、RMSprop和Adam），这些算法通常内置于深度学习库。

相关

希腊化文明公元前4世纪下半页，马其顿的腓力二世统一了整个希腊，其后后继者亚历山大大帝在帝国扩张的过程中将希腊文明传播至东方。公元前4世纪末至公元前2世纪，称希腊文化（Hellenistic civ
5月22日泰国爆发军事政变除特别注明外，本文所有时间均以东七区时间（UTC+7）为准。2014年泰国政变，是指发生于2014年5月22日，由泰国军方陆军总司令巴育·占奥差与军方官员透过电视向全国宣布强行接管政府的
牛顿第二运动定律牛顿第二运动定律（Newton's second law of motion）表明，物体所受到的外力等于动量对时间的一阶导数(一次微分值)。当物体在运动中质量不变时，牛顿第二定律也可以用质量与加速度
安东·迪亚贝利安东·迪亚贝利（德语：Anton Diabelli，1781年9月5日－1858年4月8日)，奥地利作曲家，音乐出版商。出生于萨尔茨堡附近，从米歇尔·海顿学习。后移居维也纳，于1818年开办了出版公司。1823
伊塔尔西伊塔尔西（Itarsi），是印度中央邦Hoshangabad县的一个城镇。总人口93783（2001年）。该地2001年总人口93783人，其中男性48954人，女性44829人；0—6岁人口11731人，其中男6105人，女5626人；识字
鲁道夫·斯特雷哈伊鲁道夫·斯特雷哈伊（捷克语：Rudolf Strechaj，1914年7月25日－1962年7月28日），捷克斯洛伐克共产党领导人之一，斯洛伐克总理，被外界视为党内保守派领导人之一。作家拉迪斯拉夫·姆尼亚
伊予松山藩伊予松山藩（日语：伊予松山藩／いよまつやまはん */?）为日本江户时代的藩名，以伊予国温泉郡（现在的爱媛县松山市）为中心，包含久米郡、野间郡、伊予郡，藩厅位于松山城。1600年关原之
倪博文倪博文（Ni Bowen，1998年7月11日－），浙江人，中国女子羽毛球运动员。2016年11月，倪博文代表中国参加西班牙毕尔巴鄂举行的世界青年羽毛球锦标赛，助球队赢得团体赛冠军。2017年4月，倪博文出战大阪羽毛球国际挑战赛，与王斯杰合作拿得混合双打比赛冠军。只列出曾进入半决赛的国际赛事成绩：
20代最in!《20代最in!》（日语：20代はイケイケ!）是日本歌手宇多田光的影音作品，于2003年3月29日以DVD版本发行。
百万企鹅百万企鹅（英语：A Million Penguins）是一个透过互联网集体创作文学作品的Wiki计划，由英国企鹅出版集团与英国莱斯特德蒙特福特大学联合创建。“百万企鹅”这计划是由一名任职于德蒙特福特大学（De Montfort University）的教授普林格（Kate Pullinger）发起，并跟英国企鹅出版集团联合推展有关计划。普林格是大学“创意写作硕士课程”的讲师，她认为传统的出版商在1990年代曾推出光碟和电子书以拓阔市场，但因成效末如理想，故一直对资讯数码化及多媒体存有戒心。另一方面，谷歌（