超参数 (机器学习)

✍ dations ◷ 2025-12-04 21:31:34 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 陶文 ‧ 甲骨文 ‧ 金文 ‧ 古文 ‧ 石鼓文籀文 ‧ 鸟虫书 ‧ 篆书(大篆 ‧  小篆)隶书 ‧ 楷书 ‧ 行书 ‧ 草书漆书 ‧  书法 ‧ 飞白书笔画 ‧ 
  • 昆山市昆山市在中国江苏省东南部,邻接上海市,是江苏省的一个直管市。昆山是昆曲的发源地;昆山经济高度发达,在中国百强县中综合竞争力与江苏江阴市并列第一。秦代设娄县。南朝梁改昆山
  • 古罗马广场古罗马广场(拉丁语:Forum Romanum)位于意大利罗马帕拉蒂尼山与卡比托利欧山(Collis Capitolinus)之间,它是古罗马时代的城市中心,包括一些罗马最古老与最重要的建筑。
  • 基基·卡马雷纳恩里克·S·“基基”·卡马雷纳·萨拉萨尔(西班牙语:Enrique S. "Kiki" Camarena Salazar;1947年7月26日-1985年2月9日)是墨西哥裔美国人,供职于美国缉毒局并担任卧底特工一职。在
  • 彼得·巴罗彼得·巴罗(英语:Peter Baro),(1535年-1599年),文艺复兴时期欧洲法国神学家之一。他信奉了加尔文教。后来由于受到宗教的迫害而亡命英格兰,在剑桥大学以讲授神学为其职业。他的思想对
  • 凯瑟琳·斯威策凯瑟琳·弗吉尼亚·“凯西”·斯威策(英语:Kathrine Virginia "Kathy" Switzer,1947年1月5日-)出生于德国班贝格,是一位美国作家,电视评论员和马拉松选手,她因在1967年成为第一个报
  • 1997年法国网球公开赛1997年法国网球公开赛是第96届法国网球公开赛,是年度第二项大满贯赛事。于1997年5月26日至6月8日在罗兰·加洛斯球场举行。 单打列出冠亚军以及决赛比分,双打列出冠军组合。
  • 陈飞 (1963年)陈飞(1963年11月-),男,江苏南通人,中华人民共和国政治人物。1986年7月毕业于武汉水利电力学院水工专业。1999年1月获中国人民大学经济专业硕士学位。1985年加入中国共产党,1986年参加工作,高级工程师。全国劳动模范,教授级高级工程师,百千万人才工程国家级人选,享受政府特别津贴专家。曾获中国青年最高奖——五四奖章、国家科技进步一等奖。 历任葛洲坝工程局第一工程公司副经理、经理、第一工程公司三峡工程施工指挥部副指挥长、指挥长;中国葛洲坝集团公司副总经理、党委常委、党委副书记,兼任三峡工程施工指
  • 鄂尔多斯文化鄂尔多斯文化是以中国内蒙古自治区鄂尔多斯市为中心的青铜器文化,范围主要分布在长城以北,阴山以南的河套地区。年代约为公元前六世纪至公元前二世纪。出土文物显示鄂尔多斯文化有受到斯基泰文化的影响。一说鄂尔多斯文化可称为先匈奴文化或早期匈奴文化,但学术界对其与匈奴的关系尚存争议。
  • 蔡彤彤蔡彤彤(1990年2月7日-)是一名中国女子艺术体操运动员,温州人。她在2008年北京夏季奥林匹克运动会中,参加了女子艺术体操比赛并获得全能银牌。