超参数 (机器学习)

✍ dations ◷ 2025-08-23 16:09:36 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 世界牛奶日世界牛奶日(英语:World Milk Day)是联合国粮食及农业组织设立的节日,目的是让人们认识到牛奶作为全球性食品的重要性。自2001年以来,每年的6月1日都会有相关活动开展。该节日旨在
  • 议会制议会制又称内阁制、议会民主制(英语:Parliamentary system),是一种政治制度,特点是“议会无上”,政府首脑(总理或首相)权力来自议会,授权有两种途径:第一是议会改选后的多数议席支持,第
  • 巴巴多斯中华民国与巴巴多斯关系是指中华民国与巴巴多斯之间的关系。两国于1967-1977年有官方外交关系,断交后,目前没有在对方首都互设具大使馆性质的代表机构。对巴巴多斯的相关事务由
  • 汽车事件数据记录系统汽车事件数据记录系统(英语:Event data recorder,缩写为 EDR)是一个安装在汽车上,用于记录驾驶状态等资讯的设备以便在交通事故时提供证据。在现代的柴油卡车中,车祸往往发生在发
  • 阿尤布汗 (钦察)阿尤布汗(波斯语:ايوب خان‎,鞑靼语:Äyyüb,俄语:Аепа,11世纪-1117年),钦察联盟领袖,他是安德烈·博戈柳布斯基的祖父,他曾与弗拉基米尔·莫诺马赫战争。但他也曾与基辅罗斯
  • 爱丽丝·罗斯福·隆沃思爱丽丝·李·罗斯福·朗沃斯(英语:Alice Lee Roosevelt Longworth,1884年2月12日-1980年2月20日),第26任美国总统西奥多·罗斯福长女,是罗斯福的第一任妻子爱丽丝·哈撒韦·李为他
  • 惠勒-德维特方程在理论物理中,惠勒-德维特方程(英语:Wheeler-DeWitt equation,简称惠-德方程)是一个描述宇宙波函数 ψ {\displaystyle \psi \,} 必须
  • 帕斯夸莱·保利帕斯夸莱·保利(意大利语:Pasquale Paoli;法语:Pascal Paoli,1725年-1807年),科西嘉政治家、爱国者。保利家族于1735年开始领导科西嘉人反抗热那亚的统治。1739年,保利追随其父逃亡国
  • 傲慢与偏见与僵尸《傲慢与偏见与僵尸》(英语:)是一部戏仿作品,由赛斯·葛雷恩·史密斯于2009年根据珍·奥斯汀的《傲慢与偏见》改编而成,全书共七成的内容为傲慢与偏见的原文内容,主角仍然是伊丽莎
  • 劳里·坦纳劳里·坦纳(芬兰语:Lauri Tanner,1890年11月20日-1950年7月11日),芬兰男子竞技体操运动员。他曾代表芬兰获得1912年夏季奥运会体操比赛男子团体自由式银牌。他在该届奥运会也参加了足球比赛。