超参数 (机器学习)

✍ dations ◷ 2025-11-24 12:25:55 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 唯象专家理论粒子物理中的粒子物理现象学(英文:particle physics phenomenology)处理有关理论物理在高能粒子实验中的应用。在标准模型的框架内,现象学家为实验计算详细的预测结果,通常要
  • 哺乳纲哺乳动物是指脊椎动物亚门下哺乳纲(学名:Mammalia)的一类用肺呼吸空气的温血脊椎动物,因能通过乳腺分泌乳汁来给幼体哺乳而得名。按照《世界哺乳动物物种》(Mammal Species of th
  • 季节性抑郁障碍季节性抑郁症(英文:Seasonal Affective Disorder,或SAD,以下简称SAD)也叫做“冬季忧郁症”(英语:Winter depression),是一种感情的,或者情绪的失调。大多数的SAD患者在一年的大部分时
  • Roderick David Stewart罗德里克·大卫·“罗德”·斯图尔特爵士,CBE(Sir Roderick David Stewart,1945年1月10日-)出生及成长于英国伦敦,是一名苏格兰/英格兰著名歌手,是美国乐坛六十年代中期的英国入侵
  • 城隍庙坐标:23°7′45″N 113°15′56″E / 23.12917°N 113.26556°E / 23.12917; 113.26556广州都城隍庙,是广东省广州市的一座祭祀城隍的庙宇,现门牌为越秀区中山四路忠佑大街48号
  • 香油容器香油容器(古希腊语:Guttus;众数作Gutti)是古希腊的一种用以在澡堂或运动场来盛载香油的陶瓷器皿。这些器皿一般都有一个细长的开口来倒油出来。不过,这种容器后期也有以玻璃制作,
  • 马春雷马春雷(1966年7月-),男,汉族,上海人,中华人民共和国政治人物。现任上海市人民政府秘书长、办公厅主任。1989年7月参加工作。2013年7月担任上海嘉定区委书记。2018年2月担任上海市发改委主任。2021年2月26日担任上海市人民政府秘书长、办公厅主任。
  • 香格里拉·开拓异境~粪作猎手挑战神作~单行本第1卷中文版封面《香格里拉·开拓异境~粪作猎手挑战神作~》(日语:シャングリラ・フロンティア〜クソゲーハンター、神ゲーに挑まんとす〜,简称“シャンフロ”)是日本作家硬梨菜所著的网络小说,2017年5月19日起于成为小说家吧上连载。改编漫画开始连载于《周刊少年Magazine》2020年第33号,不二凉介作画。截至2021年8月,网络小说累积阅览次数逾4亿次,漫画累积发行超过100万本。本作尚未出版过实体版小说。本作作者硬梨菜在海外时看了在小说投搞网站成为小说家吧连载的《魔法科高中的劣等生》,觉得很有
  • WLKM加特林重机枪WLKM “Szafir ”(Szafir,意为:蓝宝石)是一款由波兰机械设备的研究和发展中心(简称:OBRSM塔尔努夫公司)制造的车载4枪管加特林式重机枪,于2014年国际国防工业展(MSPO 2014)上首次展出,发射12.7×99毫米(.50 BMG)北约口径制式步枪子弹。OBRSM公司研制的WLKM采用4根枪管结构,每根枪管均具有自身的自动机系统,这些枪管及自动机系统均匀分布地安装在由外能源(直流电动机)驱动的旋转体上。接通外能源,旋转体带动枪管旋转,每根枪管依次完成推弹入膛、闭锁、击发、抛壳、抛
  • 盲用电脑系统盲用电脑系统指盲人使用的计算机。盲人可透过在一般电脑上安装屏幕阅读软件(screen reader),将电脑显示的文字透过语音合成系统(text to speech engine)将之阅读出来。或配合点字显示机(refreshable braille display)即时显示相应的点字。除此之外,亦可使用点字打印机(braille embosser)将电脑文件机器化地打印在纸上。而在输入方面,由于盲人不懂书写一般的汉字,故有盲用中文输入法的产生。它的原理是主要透过使用词语的输入来解决大部分一字多音的问题,