学习率

✍ dations ◷ 2025-12-04 13:51:46 #学习率

在机器学习和统计学中,学习率(英语:Learning rate)是优化算法中的一个可调参数,它决定了每次迭代的步长,使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。

设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定,而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步,超过最小值;但过低的学习率会导致收敛速度变慢,或收敛于局部最小值。

为了加速收敛,防止振荡和陷入不理想的局部极小值,学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值,也可以使用其他方式选择。学习率计划表在学习过程中改变学习率,最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定:衰减(Decay)和动量(Momentum)。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置(当恒定学习率过高时,学习过程可能会在最小值附近震荡)。衰减率通常由超参数控制。

动量类似于从山上滚下来的球,我们希望球在最低点(对应于最低的误差)停留。当梯度方向长期一致时,动量可以加快学习速度(提高学习率),也能通过跳过局部最小值。动量由类似于球质量的超参数控制,而这一参数必须手动选择。当动量过大时,球会滚过希望找到的最小值;当动量过低时,它将不起作用。计算动量的公式比计算衰减的公式更复杂,但在常用的深度学习库(如Keras)中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素,学习率更新公式为:

η n + 1 = η n 1 + d n {displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}

其中 η {displaystyle eta } 是学习率。 d {displaystyle d} 是衰减参数,而 n {displaystyle n} 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为:

η n = η 0 d 1 + n r {displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}

其中 η n {displaystyle eta _{n}} 是在第 n {displaystyle n} 步的学习率, η 0 {displaystyle eta _{0}} 初始学习率, d {displaystyle d} 是每次下降时学习率的变化程度(0.5代表减半), r {displaystyle r} 对应下降率(即下降的频率,10代表每10此迭代下降一次)。向下取整函数( {displaystyle lfloor dots rfloor } )将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似,但使用的不是步,而是递减的指数函数。考虑到衰减的数学公式是:

η n = η 0 e d n {displaystyle eta _{n}=eta _{0}e^{-dn}}

其中 d {displaystyle d} 是衰减参数。

学习率计划表存在的问题是,学习率变换方式取决于超参数,而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题(如Adagrad、Adadelta、RMSprop和Adam),这些算法通常内置于深度学习库。

相关

  • 黄嘌呤黄嘌呤(英语:xanthine)是一种广泛分布于人体及其他生物体的器官及体液中的一种嘌呤碱,常用作温和的兴奋剂和支气管扩张剂,特别用于治疗哮喘症状。咖啡因、茶碱及可可碱(主要在巧克
  • 夏普莱斯卡尔·巴里·夏普莱斯(英语:K. Barry Sharpless,1941年4月28日-),美国化学家,前麻省理工学院化学系正教授,2001年诺贝尔化学奖得主。基于他对点击化学的突出贡献,汤森路透预测他将二
  • 制药工程制药业,是人类历史上将制药技术提升至药物量产化的工程技术。由于现代的药物大多数属有机化合物,在温度、杂质的存在下极容易受到感染或变坏,好的制药过程需要在环境有很好的配
  • 里尔第一大学里尔一大(法语:Université Lille 1 : Sciences et Technologies;又称里尔科技大学),是位于法国北部诺尔省阿斯克新城的一所大学,2018年与里尔二大、三大合并组成里尔大学。其有
  • 艾伦·德肖维茨艾伦·德肖维茨(英语:Alan Morton Dershowitz 1938年9月1日-)美国律师和法律学者,以其对美国宪法和美国刑法的学术而闻名,他也是公民自由倡导者。从1964年到2013年,在哈佛大学法学
  • 林其中林其中(1832年-1884年),字乐卿,号在矣,生于台湾潭仔墘大埔村,曾参与平定太平天国与戴潮春事件。清朝道光12年(1832年),林其中生于台湾潭仔墘大埔村(今台中市潭子区大丰里)。祖父林朴直于
  • 博吉恰乡坐标:.mw-parser-output .geo-default,.mw-parser-output .geo-dms,.mw-parser-output .geo-dec{display:inline}.mw-parser-output .geo-nondefault,.mw-parser-output .geo-multi-punct{display:none}.mw-parser-output .longitude,.mw-parser-output .latitude{white-space:n
  • 奴隶解放奴隶解放是指奴隶主自愿将奴隶释放以使其自由的行为。奴隶解放是奴隶制度里面经常有的一个元素,甚至可能任何奴隶制度都有,而不是对奴隶制度的一种拒绝。希腊的奴隶在被解放后一般都会成为外人。他们成为外国居民,但却不能成为他们居住地的公民,因此他们获得的自由并不是完全的自由。
  • 苏台德兰帝国大区苏台德兰帝国大区(德语:Reichsgau Sudetenland)为存在于1938年至1945年间纳粹德国的帝国大区,范围涵盖1938年9月30日从《慕尼黑协定》中获取之捷克斯洛伐克的苏台德北部29,140平方公里地区,下辖奥西格行政区(德语:Regierungsbezirk Aussig)、埃格行政区(德语:Regierungsbezirk Eger)、特罗保行政区(德语:Regierungsbezirk Troppau)等三个行政区,首府为赖兴贝格,帝国总督(德语:Reichsstatthalter
  • 巴菲特税巴菲特税是一项以美国富豪沃伦·巴菲特命名的税项。此税项最先于2011年9月由华府提出,其后美国总统奥巴马于2012年任年第三份的国情咨文中再次提及,该税项建议向年收入超过100万美元的家庭收取超过30%的税款,以在10年内政府可节省至少470亿美元,但随即被共和党人批评此举为阶级分化。结果有关法案以51票赞成,45票反对下被国会参议院否却。