学习率

✍ dations ◷ 2025-11-06 20:32:29 #学习率

在机器学习和统计学中,学习率(英语:Learning rate)是优化算法中的一个可调参数,它决定了每次迭代的步长,使得优化向损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。

设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数的负梯度决定,而学习率决定了在这个方向上迈出多大一步。过高的学习率会使迈一大步,超过最小值;但过低的学习率会导致收敛速度变慢,或收敛于局部最小值。

为了加速收敛,防止振荡和陷入不理想的局部极小值,学习率在训练过程中往往按照计划或自适应改变。

初始学习率速率可以参考系统默认值,也可以使用其他方式选择。学习率计划表在学习过程中改变学习率,最常见的是在epochs或iterations之间改变。学习率的改变通常由两个参数决定:衰减(Decay)和动量(Momentum)。目前常见的学习率修改方式是基于时间、基于步骤或基于指数的。衰减的作用是将学习过程稳定在一个好的、没有振荡的位置(当恒定学习率过高时,学习过程可能会在最小值附近震荡)。衰减率通常由超参数控制。

动量类似于从山上滚下来的球,我们希望球在最低点(对应于最低的误差)停留。当梯度方向长期一致时,动量可以加快学习速度(提高学习率),也能通过跳过局部最小值。动量由类似于球质量的超参数控制,而这一参数必须手动选择。当动量过大时,球会滚过希望找到的最小值;当动量过低时,它将不起作用。计算动量的公式比计算衰减的公式更复杂,但在常用的深度学习库(如Keras)中已经实现。

基于时间的学习计划表会根据前一个迭代的学习率改变学习率。考虑到衰减的因素,学习率更新公式为:

η n + 1 = η n 1 + d n {displaystyle eta _{n+1}={frac {eta _{n}}{1+dn}}}

其中 η {displaystyle eta } 是学习率。 d {displaystyle d} 是衰减参数,而 n {displaystyle n} 是迭代步骤。

基于步的学习计划表根据预先定义的步长改变学习率。通常定义为:

η n = η 0 d 1 + n r {displaystyle eta _{n}=eta _{0}d^{leftlfloor {frac {1+n}{r}}rightrfloor }}

其中 η n {displaystyle eta _{n}} 是在第 n {displaystyle n} 步的学习率, η 0 {displaystyle eta _{0}} 初始学习率, d {displaystyle d} 是每次下降时学习率的变化程度(0.5代表减半), r {displaystyle r} 对应下降率(即下降的频率,10代表每10此迭代下降一次)。向下取整函数( {displaystyle lfloor dots rfloor } )将小于1的数改为0。

指数式学习计划表与基于步的学习计划表类似,但使用的不是步,而是递减的指数函数。考虑到衰减的数学公式是:

η n = η 0 e d n {displaystyle eta _{n}=eta _{0}e^{-dn}}

其中 d {displaystyle d} 是衰减参数。

学习率计划表存在的问题是,学习率变换方式取决于超参数,而超参数必须为手动选择。许多不同类型的自适应梯度下降算法解决这个问题(如Adagrad、Adadelta、RMSprop和Adam),这些算法通常内置于深度学习库。

相关

  • 中国水危机中国给水排水系统的建设随着中国经济与科技的高速发展日新月异、成果斐然,但距其完善又任重道远。随着中国城市化进程的逐步加快与城乡贫富差距的进一步扩大,以及水资源短缺、
  • .ke.ke为肯尼亚国家及地区顶级域(ccTLD)的域名。A .ac .ad .ae .af .ag .ai .al .am .ao .aq .ar .as .at .au .aw .ax .az  B .ba .bb .bd .be .bf .bg .bh .bi .bj .bm .bn
  • 红珊藤目红珊藤目(学名:Berberidopsidales)又名智利藤目,是真双子叶植物的一个目,位于核心真双子叶植物的分支之中,只有2科3属4种。红珊藤目是2001年以来才被提出的分类,用以包含当时地位未
  • 六约站六约站是深圳地铁3号线的车站,位于龙岗大道近六约建材市场,深坑村东北方向,于2010年12月28日正式启用,为高架站。六约站为地面三层两柱单跨式钢筋混凝土结构,地面一层为设备层,地
  • 为什么要社会主义?《为什么要社会主义?》(Why Socialism?)是阿尔伯特·爱因斯坦在1949年5月写的一篇文章,发表于社会主义期刊《每月评论》第一期。根据爱因斯坦的说法,资本主义社会的利润动机与资
  • 北汝河 (汝河)北汝河是中国河南省南部汝河左岸一条支流,主源北柳堰河发源于遂平县西北部,槐树乡吴岗村北的南北岗地东麓,流经西平、上蔡、汝南等县,至汝南县东部三桥乡沙口村注入汝河。河长59
  • 孔查瓜火山坐标:13°16′30″N 87°50′42″W / 13.275°N 87.845°W / 13.275; -87.845孔查瓜火山(西班牙语:Volcán de Conchagua),是萨尔瓦多的火山,位于该国东南部,由拉乌尼翁省负责管辖,
  • 克罗地亚政党列表公投 政治主题本条目列出克罗地亚政党。克罗地亚属于多党制,通常需要由多个政党组成执政联盟。到2011年克罗地亚议会选举为止,克罗地亚共有116个以注册政党。
  • 南非统计局南非统计局(南非语:Statistiek Suid-Afrika,英语:Statistics South Africa;简称为Stats SA)是南非的国家统计机构,其目标是及时、准确和官方的统计数据,以促进经济增长、发展及民主。为此,南非统计局进行官方人口统计、经济以及社会普查与调查。迄今为止,南非统计局已于1996年、2001年和2011年进行三次人口普查,并公布了人口普查的结果。以前,南非统计局称为“中央统计服务”;在种族隔离结束后不久,其吸收了特兰斯凯、博普塔茨瓦纳、文达以及西斯凯的统计服务。南非
  • 编排 (计算机)编排(英语:orchestration)是对计算机系统和软件的自动化配置、协调和管理。编排通常被讨论为拥有一个与生俱来的(inherent)智能或隐含的(implicitly)自主性,但这更多的是一种愿望或类比,而不是技术上的描述。事实上,编排更多的是自动化技术的影响或部署控制理论的元素的系统。“编排”的说法常常在有关面向服务的架构(Service Oriented Architecture,简称SOA)、虚拟化(virtualization)、服务开通(provisioning)和动态数据中心(dyna