超参数 (机器学习)

✍ dations ◷ 2025-04-26 12:10:44 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 弗朗西斯·柯林斯弗朗西斯·柯林斯(英语:Francis S. Collins,1950年4月14日-),美国遗传学家,美国国立卫生研究院院长,领导人类基因组计划,并发现了多种疾病基因。1989年与徐立之共同同发现囊性纤维化
  • 主神论单一主神论(英语:Henotheism),源自希腊语的“'ἑνας θεός”(henas theos,意为“单一神”),也称单一神教、尊一神论、单一神论、或单一多神论,是指对某单一神的崇拜,且此种崇拜
  • 氧的同位素氧(原子量:15.9994)共有18种同位素,其中有3种是稳定的。氧的3种稳定同位素是16O、17O、18O,其中16O最多,丰度为99.762 atom%。16O的丰度最大可以由恒星进化论解释。大爆炸产生宇宙
  • 荷兰国会执政联盟(38)在野党(37)联合政府(76)在野党(74)国会(荷兰语:Staten-Generaal)是荷兰王国的两院制立法机构,包括一院(Eerste Kamer)(上议院,即参议院)和二院(Tweede Kamer)(下议院,即众议院)。国会
  • 萨格勒布空难萨格勒布空难(克罗地亚语:Zrakoplovna nesreća kraj Zagreba 1976)指的是1976年9月10日发生在当年南斯拉夫萨格勒布(今日克罗地亚的首都)附近的弗尔博韦茨市上空,一架英国航空的
  • 李仙得李仙得(法语:Charles W. Le Gendre,或译李让礼、李善得,1830年8月26日-1899年9月1日),法裔美国人,曾参与南北战争,官拜准将,后担任外交官,曾担任美国驻厦门领事。罗发号事件(“一作罗妹
  • 吃草的声音《吃草的声音》(韩语:풀 뜯어먹는 소리,英语:Happy Farmers),为韩国tvN制作并播出的一档“乡村生活记录”的真人实境秀节目。节目名称源自连载三年的网漫《吃草的声音》,节目主轴是
  • 费迪南德·里斯费迪南德·里斯(德语:Ferdinand Ries,1784年11月28日-1838年1月13日),德国作曲家,钢琴家,贝多芬的学生和助手。自1803年起,他从家乡波恩来到维也纳,受到贝多芬的赞赏,从他学习钢琴演奏,
  • 茨维特科·波波维奇茨维特科·波波维奇(塞尔维亚语西里尔字母:Цвјетко Поповић;拉丁化:Cvjetko Popović,1896年–1980年6月9日)是波斯尼亚的塞尔维亚人,萨拉热窝事件中的刺客之一。茨
  • 林江义林江义(阿美语:Mayaw Dongi,1949年10月30日-)是台湾原住民阿美族出身的政治人物,曾任原住民族委员会第8任主委,现为中国国民党原住民工作委员会主任委员。在行政院原住民族委员会副主委任内极力推动原住民政策,并积极推展原住民族与国际的交流,致力于促进族群的和谐;邵族、噶玛兰族、太鲁阁族、撒奇莱雅族、赛德克族也在其任内复名;也是规划推动原住民族母语认证的推手,以抢救原住民族语危机。在原住民族委员会主委任内核定拉阿鲁哇族及卡那卡那富族两族原住民族正名。2015年3月26日,原民会主委林江义在接受