超参数 (机器学习)

✍ dations ◷ 2025-11-17 11:34:06 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 周美吟周美吟(1958年-),出身台湾台北三重,台湾物理学家。她以纳米材料发展为主要研究领域。在周美吟3岁时,她的父亲病逝。后来,她入台北市大安国小就读,并培养出对于阅读及音乐的浓厚兴趣
  • 洪卜仁洪卜仁(1928年-2019年),男,福建厦门人。中国方志学者,厦门文史专家,福建省文史研究员。被誉为“厦门活字典”。1928年6月16日生。1940年小学毕业。入同文中学读初一,1941年12月8日,因
  • 威廉·斯利姆,第一代斯利姆子爵威廉·约瑟夫·斯利姆,第一代斯利姆子爵 KG, GCB, GCMG, GCVO, GBE, DSO, MC, KStJ(William Joseph Slim, 1st Viscount Slim,1897年8月6日-1970年12月14日),英国军事指挥官和第十三任澳
  • 特洛伊祭司特洛伊祭司(或称特诺伊祭司)是英国一个少数宗教的祭司,因这宗教认为英国原居民是特洛伊人在夷城后漂流到英伦三岛的后裔。特洛伊祭司在每年英国夏至的日出时份在巨石阵观看日光
  • 光子纠缠光子纠缠(photon entanglement)理论认为,若将两粒来自同一光束的光子分开,发生在其中一粒光子上的事情, 在另一粒光子上都能反映出来。正如常规的量子纠缠一样,一个系统的两个或
  • 长鸿出版社长鸿出版社股份有限公司(Ever Glory Publishing Co., Ltd.),简称长鸿,是台湾的一家漫画出版社,创立于1991年6月,书籍发行所位在台南市安平工业区内。长鸿出版社为南一书局子公司,其
  • 卡伦德峰坐标:75°18′S 110°18′W / 75.300°S 110.300°W / -75.300; -110.300卡伦德峰(英语:Callender Peak)是南极洲的山峰,位于玛丽伯德地,处于墨菲火山东北面17公里,美国地质调查局
  • 欢迎来到施米加多!《欢迎来到施米加多!》(英语:)是一部美国歌舞喜剧类型的网络剧集,由辛柯·保罗和肯·多利欧(英语:Cinco Paul and Ken Daurio)开创,希丝莉·史壮(英语:Cecily Strong)领衔出演,剧集于2021年7月16日在苹果公司的线上串流媒体平台Apple TV+首播。一对自助旅行的恋人意外进入名为施米加多的小镇,发现镇上居民的行为举止如同20世纪40年代的音乐剧,随后两人意识到除非找到“真爱”,否则无法离开小镇。2020年1月,Apple TV+给予剧集整季预订,希丝莉·史壮(英语
  • 刘岸伟刘岸伟(1957年4月-)是一位中国比较文学家。1957年出生于北京。1981年毕业于北京外国语大学,1989年凭借论文《西洋の冲撃と中日近代文化の创出と挫折-周作人と永井荷风》获得东京大学博士学位。1992年担任札幌大学助教授,1998年担任东京工业大学助教授、教授。1992年凭借《东洋人の悲哀》获得三得利学艺奖、1992年获得金素云奖。1998年东工大助教授、教授。2005年凭借《小泉八云と近代中国》获得岛田谨二学艺奖。2012年凭借《周作人伝 ある知日派文人の精神史》获得和辻哲郎文化奖。
  • 环舞 (短篇小说)《环舞》()是美国作家艾萨克·阿西莫夫创作的一篇短篇科幻小说,里面有在其之后的多部小说中多次出现的人物鲍威尔()和杜鲁门()。这篇小说写于1941年10月,初次出版在1942年三月的《超级科学故事》()杂志上。后来收录于1950年的《我,机器人》()、1982年的《机器人全集》()和1990年的《机器人视觉》()。在《环舞》中,著名的机器人三定律第一次出现,并在阿西莫夫之后的多部关于机器人小说中作为主题。在许多其他同类型的小说中,机器人陷入由机器人三定律文字上的模糊所造成的困境,而《环舞》中的机器人自始自