学习率

✍ dations ◷ 2025-11-30 23:27:54 #学习率

在机器学习和统计学中,学习率(英语:Learning rate)是优化算法中的一个可调参数,它决定了每次迭代的步长,使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。

设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定,而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步,超过最小值;但过低的学习率会导致收敛速度变慢,或收敛于局部最小值。

为了加速收敛,防止振荡和陷入不理想的局部极小值,学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值,也可以使用其他方式选择。学习率计划表在学习过程中改变学习率,最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定:衰减(Decay)和动量(Momentum)。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置(当恒定学习率过高时,学习过程可能会在最小值附近震荡)。衰减率通常由超参数控制。

动量类似于从山上滚下来的球,我们希望球在最低点(对应于最低的误差)停留。当梯度方向长期一致时,动量可以加快学习速度(提高学习率),也能通过跳过局部最小值。动量由类似于球质量的超参数控制,而这一参数必须手动选择。当动量过大时,球会滚过希望找到的最小值;当动量过低时,它将不起作用。计算动量的公式比计算衰减的公式更复杂,但在常用的深度学习库(如Keras)中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素,学习率更新公式为:

η n + 1 = η n 1 + d n {displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}

其中 η {displaystyle eta } 是学习率。 d {displaystyle d} 是衰减参数,而 n {displaystyle n} 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为:

η n = η 0 d 1 + n r {displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}

其中 η n {displaystyle eta _{n}} 是在第 n {displaystyle n} 步的学习率, η 0 {displaystyle eta _{0}} 初始学习率, d {displaystyle d} 是每次下降时学习率的变化程度(0.5代表减半), r {displaystyle r} 对应下降率(即下降的频率,10代表每10此迭代下降一次)。向下取整函数( {displaystyle lfloor dots rfloor } )将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似,但使用的不是步,而是递减的指数函数。考虑到衰减的数学公式是:

η n = η 0 e d n {displaystyle eta _{n}=eta _{0}e^{-dn}}

其中 d {displaystyle d} 是衰减参数。

学习率计划表存在的问题是,学习率变换方式取决于超参数,而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题(如Adagrad、Adadelta、RMSprop和Adam),这些算法通常内置于深度学习库。

相关

  • 恩斯特·路德维希·克尔希纳1938年6月15日(1938-06-15)(58岁)瑞士Frauenkirch恩斯特·路德维希·克尔希纳(德语:Ernst Ludwig Kirchner, 1880年5月6日-1938年6月15日)是一位德国表现主义画家,也是表现主义艺术
  • 直流电机直流电动机是依靠直流电驱动的电动机,在小型电器上应用较为广泛。 其零件约可分为:托架/刹车片/外扇/轴承盖/弹簧销/弹簧垫圈/调整螺栓/皿型弹簧/轴承/轴承电动机轴心/整流器
  • 火绒安全软件2012年12月,​7年前​(2012-12) 火绒安全软件(原名火绒互联网安全软件),常被简称为火绒,是火绒公司推出的一款Windows操作系统下的个人计算机个人安全软件。功能主要有清除恶意软件
  • 安贞桓安贞桓(안정환,1976年1月27日-),韩国的前足球运动员,现为综艺节目主持,曾效力于意大利佩鲁贾、德国杜伊斯堡足球俱乐部和中国大连实德等俱乐部。安贞桓首支效力的球队是釜山大宇,199
  • 崔廷勋崔廷勋,河内(今河南省西北部)人,中国五代十国、辽朝军人、政治人物。崔廷勋相貌魁梧,胡须优美。从小失陷在契丹,在契丹担任云州大同节度使、侍中。947年,辽太宗灭后晋,进入汴京,将晋
  • 恩和森恩和森(1925年-1989年12月18日),又名和中山,男,蒙古族,内蒙古巴林左旗人,中国电影表演艺术家,一级演员,曾任中国电影家协会理事。
  • 曹汝霖 (艋舺县丞)曹汝霖(?-?),直隶省霸昌道顺天府宛平县(今北京市门头沟区)人,清朝官员。曹汝霖于嘉庆十七年(1812年)接替弓清瀚,担任艋舺县丞一职。十八年(1813年)倡修新庄慈祐宫,并用余款在慈祐宫右侧兴建了文昌祠。
  • 姚记科技上海姚记科技股份有限公司,简称姚记科技(深交所:002605),是中华人民共和国的一家以文化娱乐产业为主要业务的企业。公司的前身为1989年成立的上海人民印刷十厂黄渡分厂,1994年4月由商人姚文琛接手工厂,并开始生产扑克牌。2008年改为股份公司。2019年8月28日,公司更名为“姚记科技”,并拓展手机游戏、互联网营销等业务。姚记科技的前身为1989年成立的上海人民印刷十厂黄渡分厂。1989年9月,黄渡镇(现为安亭镇的一部分)下属集体企业黄渡工业公司与上海人民印刷十厂联营设立上海人民印刷十厂黄渡分厂,生
  • GFGF可以指:
  • 台酒花雕鸡面台酒花雕鸡面,是台湾烟酒公司于2013年推出的一款泡面产品,是酒香泡面系列产品的一种,有袋装与碗装两种包装形式。此款泡面在2015年于台湾市场爆红且广受好评,在2017年的在台销售量超过1200万碗。台酒花雕鸡面的内容物除了面体以外,有鸡肉调理包、调味粉包、佐料包和花雕料理酒包。其中花雕酒由台中酒厂的酿酒师林庆福研发,是15年以上的陈年花雕酒,而制作调理包需要费时三个星期。2010年代,台湾烟酒公司为了消化15年的花雕酒库存,开始研发酒香泡面系列的泡面产品。2012年时,台酒推出麻油鸡泡面;2013年正式