超参数 (机器学习)

✍ dations ◷ 2025-11-19 03:55:10 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 9-CM以下是国际疾病与相关健康问题统计分类(ICD)第九版的编码列表:
  • 拉美西斯一世拉美西斯一世又名门帕提拉,原名普拉美斯,生于埃及东北三角洲的阿发里斯城。( Ramesses I,或Ramsses I,?-公元前1294年6月),古埃及第十九王朝创建者(约公元前1295年—约公元前1294在位
  • 萨帕尔穆拉特·阿塔耶维奇·尼亚佐夫萨帕尔穆拉特·阿塔耶维奇·尼亚佐夫(土库曼语:Saparmyrat Ataýewiç Nyýazow;俄语:Сапармура́т Ата́евич Ния́зов;1940年2月19日-2006年12月21日)是
  • 特鲁克岛美军胜利冰雹行动(英语:Operation Hailstone)是美国海军于1944年2月17日至18日对日本海军位于中太平洋的军事要港特鲁克实施的一次大规模海空联合袭击行动,日方称“特鲁克岛空袭
  • 盘山县盘山县是中国辽宁省盘锦市下辖的一个县。县人民政府驻盘锦市双台子区。下辖9个镇、5个乡。
  • 比亚泰比亚泰(Biate),是印度米佐拉姆邦Serchhip县的一个城镇。总人口2227(2001年)。该地2001年总人口2227人,其中男性1137人,女性1090人;0—6岁人口262人,其中男149人,女113人;识字率87.07%,其
  • 和久井映见和久井映见(1970年12月8日-),日本女演员、女歌手。本名和久井良子。出生于神奈川县,毕业于埼玉县立川口青陵高等学校(日语:埼玉県立川口青陵高等学校)。曾以和久井映美为艺名,发展演
  • 爱德文·苏哲兰爱德文·苏哲兰(英语:Edwin Hardin Sutherland,1883年8月13日-1950年10月11日),已故的美国20世纪社会学家(属于芝加哥社会学派)与犯罪学家,被称为美国的犯罪学之父。他除了研究职业窃
  • JaeJae(韩语:제이),本名朴再兴(音译,英语:Park Je-hyung,韩语:박제형,1992年9月15日-),韩国作曲家、作词家,2015年9月7日以韩国男子乐团DAY6出道,韩裔美国人,在团内担任副唱、吉他手。1992年9月
  • 2018年福建泉港碳九泄漏事件2018年福建泉港碳九泄漏事件,是指2018年11月4日,位于中国福建省泉州市泉港区的东港石油化工公司爆发的废弃物泄漏事件。11月8日作了通报,东港石化估算泄漏量为6.97吨。11月25日下午,泉州市政府再召开后续新闻发布会,调查组认定,泉港裂解碳九泄漏事故报告中,涉事企业刻意串通隐瞒事实,存在违规作业,实际泄漏量69.1吨。11日27日下午,据福建检察官方微博消息,福建省泉州市泉港区人民检察院经审查,依法决定以涉嫌重大责任事故罪对东港石化公司员工陈某山、刘某山、徐某清,以及“天桐1号”化工船作业人员林某