超参数 (机器学习)

✍ dations ◷ 2025-09-14 06:33:09 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • SeOsub2/sub二氧化硒是一种无机化合物,化学式为SeO2。它是白色晶体,加压液化后可以得到黄色液体,常压下加热至317℃升华,得到绿色蒸气。它和空气中的灰尘接触后,遇光即被还原为硒单质而变红
  • 泰文字泰文(泰语:อักษรไทย、皇家音译:akson thai、IPA: listen)是在泰国用于书写泰语,南泰语和一些其他少数民族语言的字母,有44个辅音字母、21个元音字母、4个声调符号、和一些
  • 2.5D2.5D是一个在不同学科有不同意思的名词。以下为几个常见的解释:在数学里,根据豪斯多夫维(Hausdorff dimension)的定义,空间的维度不一定是整数,而可以是实数。2.5D是电脑游戏对于
  • 钱宝廉钱宝廉(1820年-1878年),原名宝衡,更名鋑,字平甫,号湘吟,浙江嘉善县人。清朝政治人物。道光三十年(1850年)庚戌科进士。选翰林院庶吉士,散馆授编修。历官内阁学士、顺天学政等职,官至吏部
  • 宫本征胜宫本 征胜(Miyamoto Masakatsu,1938年7月4日-2002年5月7日),日本足球运动员,前日本国家足球队成员。从1958年到1971年,他共为日本国家足球队出场44次,打进1球。
  • 西蒙娜·韦伊 (政治家)西蒙娜·薇依,DBE(法语:Simone Veil,法语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000"
  • 小行星8239小行星8239(英语:8239 Signac)是一颗围绕太阳公转的小行星。1973年9月29日,C. J. 万·豪敦、I. 万·豪敦-格勒内费尔德、T. 赫雷尔斯在帕洛马山发现了此天体。这颗小行星的绝对
  • 内瓦塔莱内瓦塔莱(Newa Talai),是印度拉贾斯坦邦Udaipur县的一个城镇。总人口4669(2001年)。该地2001年总人口4669人,其中男性2460人,女性2209人;0—6岁人口615人,其中男330人,女285人;识字率68
  • 方成都太学生方成都,字穉华,遂安人。明末清初儒林人士,以临摹二王书法闻名。 少傅东阁大学士方逢年长子,方逢年在京师为官的时候,方成都白天亲奉母亲毛氏及料理家务,夜间温习经史,临摹王
  • 吕璜吕璜(1777年-1839年),字礼北,号月沧,又自号南郭老民,广西永福县锦桥里尚水村人,清代官员、文学家,“岭西五大家”之一。家境贫寒,嘉庆六年(1801年)乡试第二名,嘉庆十六年进士,任浙江知县。