超参数 (机器学习)

✍ dations ◷ 2025-12-04 07:38:46 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 陶文 ‧ 甲骨文 ‧ 金文 ‧ 古文 ‧ 石鼓文籀文 ‧ 鸟虫书 ‧ 篆书(大篆 ‧  小篆)隶书 ‧ 楷书 ‧ 行书 ‧ 草书漆书 ‧  书法 ‧ 飞白书笔画 ‧ 
  • 铃木章铃木章(日语:鈴木 章/すずき あきら Suzuki Akira ?,1930年9月12日-),日本化学家,北海道大学退休教授、名誉教授,铃木反应的发现者。文化勋章表彰。文化功劳者。因有关“有机合成中
  • 幸福川幸福川(二号运河)是一条位在台湾高雄市境内的小型河川,全长约5.3公里。河道两侧为高雄市的河南路及河北路,横跨三民区、前金区、新兴区、苓雅区,上游河段延伸至苓雅区,至民族路河
  • 仁宗皇庆:1312年-1313年元仁宗爱育黎拔力八达(蒙古语: ᠠᠶᠤᠤᠷᠪᠠᠯᠪᠠᠳ,鲍培转写:Ayuur balbad,西里尔字母:Аюурбарбад;藏语:.mw-parser-output .uchen{font-family:"Qo
  • 费尔南多二世 (阿拉贡)天主教徒阿拉贡的费尔南多二世(Fernando II de Aragón el Católico),1452年3月10日-1516年1月23日在世,1479年-1516年在位阿拉贡国王,1474年-1504年在位卡斯提尔国王,称费尔南多五
  • 谢尔盖·帕夫洛维奇·帕夫洛夫谢尔盖·帕夫洛维奇·帕夫洛夫(俄语:Сергей Павлович Павлов,1929年-1993年),前苏联政治人物,外交官。苏联共青团中央委员会第一书记。苏联部长会议体育运动委
  • 中国20世纪建筑遗产名录中国20世纪建筑遗产名录是由中国文物学会20世纪建筑遗产委员会推荐,经评选产生的中国20世纪建筑遗产的名录。2014年5月起,经中国文物学会20世纪建筑遗产委员会97位顾问专家委
  • 京石客运专线.mw-parser-output .RMbox{box-shadow:0 2px 2px 0 rgba(0,0,0,.14),0 1px 5px 0 rgba(0,0,0,.12),0 3px 1px -2px rgba(0,0,0,.2)}.mw-parser-output .RMinline{float:none;width:100%;margin:0;border:none}.mw-parser-output table.routemap{padding:0;border:0;border-col
  • 安蒂奥基亚省安提奥基亚省(西班牙语:Antioquia) 哥伦比亚西北部省分。省会麦德林。安蒂奥基亚省分为9个部分。 这9个地区共载有125个市镇。 亚马孙省 安蒂奥基亚省 阿劳卡省 大西洋省 玻利瓦尔省 博亚卡省 卡尔达斯省 卡克塔省 卡萨纳雷省 考卡省 塞萨尔省 乔科省 科尔多瓦省 昆迪纳马卡省 瓜伊尼亚省 瓜维亚雷省 乌伊拉省 瓜希拉省 马格达莱纳省 梅塔省 纳里尼奥省 北桑坦德省 普图马约省 金迪奥省 里萨拉尔达省 圣安德列斯-普罗维登西亚省 桑坦德省 苏克雷省 托利马省 考卡山谷省  沃佩斯省 比查达省首都
  • 定指性语言学中,定指性(Definiteness)是名词短语的语义特征之一,区分了特定语境(限定名词短语)中限定的指称对象或涵义与不定的(不定名词短语)。典型限定名词短语会突出一个独特、熟悉、具体的指称对象。不同语言中,定指性的表达有着相当大的差异,日语等语言一般不做标记。英语等语言则一般通过选择限定词来进行标记。丹麦语等语言则通过词形变化来标记。“语法上的定指性和认知上的能识性间的理论区别,能帮我们区分离散的(语法)和不离散的(认知)类别。”:84英语中,定指性常用不同的限定词表示。特定的限定词,如a、an、