超参数 (机器学习)

✍ dations ◷ 2025-12-02 23:26:10 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 世界公民世界公民一词有多重涵义,通常是指一个人不赞同源于国籍的传统地理划分。
  • 石油价格战2020年俄罗斯–沙特阿拉伯石油价格战是2020年3月8日在俄罗斯和沙特阿拉伯间发生的一次石油价格战。此次价格战导致国际油价大幅波动:美国石油价格下跌34%,原油价格下跌26%,布兰
  • 盐键离子键又被称为盐键,是化学键的一种,通过两个或多个原子或化学基团失去或获得电子而成为离子后形成。带相反电荷的原子或基团之间存在静电吸引力,两个带相反电荷的原子或基团靠
  • 基督会基督会(英语:Christian Church (Disciples of Christ))是一个基督教宗派。1811年,西维吉尼亚州的长老会内的汤玛斯·甘贝尔和亚历山大·甘贝尔父子提倡宗派合一,1827年开始组成独
  • 王润华王润华(1941年8月13日-),祖籍广东从化,出生于马来联邦霹雳州地摩(Temoh)镇,新加坡学者、诗人、散文家。曾获“创世纪”二十周年纪念奖、中国时报散文推荐奖、中兴文艺奖、新加坡国家
  • 范柏群范柏群(1987年2月18日-),是一名中国足球运动员。2005年,范柏群进入中国足球超级联赛球队天津泰达的一线队名单。但很快他又被调到预备队,2007年夏季再次进入一队。2008年3月30日,他
  • 符腾堡的欧根·腓特烈欧根·腓特烈(德语:,1758年11月21日—1822年6月20日),符腾堡公爵腓特烈二世·欧根的第三子,符腾堡国王腓特烈一世的弟弟。1787年,欧根·腓特烈与斯托贝格-盖登的路易丝(英语:Princess
  • 两种自由概念《两种自由概念》()是以赛亚·伯林在1958年10月31日在牛津大学进行的就职演说。该文随后被作为57页的单行本发表,也被收入伯林的《四论自由》()一书中。在该文中,伯林区分了两种自
  • 1391年
  • 吉维·贾瓦希什维利吉维·德米特里耶维奇·贾瓦希什维利(俄语:Гиви Дмитриевич Джавахишвили,格鲁吉亚语:გივი დიმიტრის ძე ჯავახიშვილი,1912年9月18日-1985年11月10日),格鲁吉亚人,苏联党和国家领导人。曾任格鲁吉亚苏维埃社会主义共和国最高苏维埃主席、部长会议主席等职务。贾瓦希什维利是苏共19-24大代表,第20-24届中央委员;第4-9届苏联最高苏维埃联盟院代表,第3-8届格鲁吉亚苏维埃社会主义共和国最高苏维埃代表。