超参数 (机器学习)

✍ dations ◷ 2025-12-09 16:40:13 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 自旋在量子力学中,自旋(英语:Spin)是粒子所具有的内禀性质(英语:Intrinsic and extrinsic properties),其运算规则类似于经典力学的角动量,并因此产生一个磁场。虽然有时会与经典力学中的
  • 《变形记》《变形记》(拉丁语:Metamorphoseon libri)是罗马的诗人奥维德的作品,大约开始写于公元1年或3年,完成于公元8年,是使用六步格诗体记录了关于变形的神话作品。《变形记》有15册,每册
  • 北德广播公司北德广播公司(德语:Norddeutscher Rundfunk,縮寫為NDR)是位于德国汉堡的一个公共广播电视公司,也是德国公共广播联盟的九个加盟公司之一。播出地区包括汉堡、下萨克森州、什列斯
  • The Fur.The Fur. 是在台湾高雄市所组成的Dream pop乐团,使用英语创作歌曲,现乐团由主唱柚子(Savanna)、吉他手中凌(Zero)、贝斯手唯任(Ren)所组成。乐团于2016年末开始活动,歌曲主要以鼓机、
  • 李埏李埏(1914年11月21日-2008年5月12日),字子泝,号幼舟,彝族,出生于云南省路南县,中国历史学家、云南大学历史系教授。李埏是中国土地所有制研究的重要代表,在货币经济史、唐宋经济史、
  • 公同会运动公同会运动,又称复藩运动,是日本兼并琉球、设置冲绳县之后,琉球士族阶级以琉球末代国王尚泰的儿子尚寅、尚顺为中心,发起的一个琉球人自治运动。1896年左右,尚泰王的次子尚寅联合
  • 李亚平李亚平可以指:
  • 坎格拉坎格拉(Kangra),是印度喜马偕尔邦坎格拉县的一个城镇。总人口9155(2001年)。该地2001年总人口9155人,其中男性4575人,女性4580人;0—6岁人口890人,其中男497人,女393人;识字率82.92%,其
  • 宏茂桥宏茂桥(英语:Ang Mo Kio),是新加坡一个新市镇,位于新加坡东北部、碧山以北,以熟食中心、湿货市场和建屋发展局的组屋闻名。“Ang Mo Kio”是闽南语,闽南语中的Ang Mo指的是“红毛”、或有着红头发的白种人。宏茂桥在字面上或解作“白种人的桥”,可能出于记念对新加坡基建作出巨大贡献的英籍土木工程师汤申(英语:John Turnbull Thomson)(John Turnbull Thomson),一些古旧的测量地图曾显示这区为“Mukim of Ang Mo Kio”(“Mukim”是马来
  • 瑞夫·卡尼 瑞夫·杰佛逊·卡尼(英语:Reeve Jefferson Carney,1983年4月18日-)是美国的一位歌手和演员。他曾在百老汇音乐剧《蜘蛛侠: 关闭黑暗(英语:Spider-Man: Turn Off the Dark)》中出演彼得·帕克/蜘蛛侠角色。他也在Showtime电视剧《一便士的恐惧》中出演道林·格雷角色。