超参数 (机器学习)

✍ dations ◷ 2025-12-01 08:29:41 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 麻黄碱麻黄碱,又称麻黄素(英语:ephedrine,缩写:EPH)是一种拟交感神经胺,可用来预防腰椎麻醉(英语:Spinal anaesthesia)时可能引发的低血压症状,也会在治疗气喘、猝睡症以及肥胖症中使用,但效果
  • 平方微米平方微米(符号为µm²)是面积的公制单位(SI Unit),其定义是“边长为1微米的正方形的面积”。(1cm²=100000000µm²) (1mm²=1000000µm²) (1nm²=0.000001µm²)平方尧米、
  • 奥古斯特·克罗沙克·奥古斯特·史丁伯格·克罗(Schack August Steenberg Krogh,1874年11月15日-1949年9月13日)是一位拥有罗姆人吉普赛血统的丹麦人,在1916年到1945年间,是哥本哈根大学动物生理
  • 巴尔斯希巴尔斯希(Barshi),是印度马哈拉施特拉邦Solapur县的一个城镇。总人口104786(2001年)。该地2001年总人口104786人,其中男性53894人,女性50892人;0—6岁人口12922人,其中男6964人,女5958
  • 斗士 (马)斗士(Man o' War、1917年-1947年)是美国生产及训练的纯种竞赛马匹,在不同的二十世纪最佳马匹排名中斗士都能获最多支持排在第一名,为其中一匹二十世纪美国最具影响力的马匹。竞赛
  • 火焰法庭火焰法庭(法语:La Chambre ardente)是十六、十七世纪间,法国创立的一种特别法庭,主要用来审讯异端分子。该法庭可能得名于法庭开庭时,不论日夜,四周都遮以黑布,仅以火焰照明,或者暗示
  • 前推 (微分)假设  : → 是光滑流形之间的光滑映射;则 在一点 处的微分在某种意义上是 在 附近的最佳线性逼近。这可以视为通常微积分中全导数的推广。确切地说,它是从 在 处的切
  • 西蒙·拉特尔西蒙·拉特尔爵士,OM,CBE,FRSA(英语:Sir Simon Rattle,又译:赛门·拉图、西门·勒图,1955年1月19日-),生于利物浦,英国指挥家,曾任柏林爱乐管弦乐团首席指挥。拉特1971年进入伦敦大学皇家
  • 广元州广元州。元广元路,治绵谷县。洪武四年(1371年)改为广元府。辖剑州、巴州。九年(1376年)四月降为广元州,属保宁府,以绵谷县省入。十三年十一月复置绵谷县。二十二年(1389年)六月降广元
  • 2008年东亚女子足球锦标赛2008年东亚女子足球锦标赛与男子足球赛同期(2月18日-2月24日)和同地举行,也为中国的重庆。赛事中,中国、日本、韩国和北朝鲜会以单循环形式进