超参数 (机器学习)

✍ dations ◷ 2025-11-22 21:44:41 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 星形线星形线(astroid)或称为四尖瓣线(tetracuspid),是一个有四个尖点的内摆线,也属于超椭圆的一种。所有星形线皆可以依以下的方程式比例缩放而得:其英文名称得名自希腊文的“星星”,星形
  • 大黑天神龙大黑天神龙属(属名:Mahakala)是种原始驰龙科恐龙,唯一的化石发现于蒙古南戈壁省的德加多克塔组(Djadochta Formation),年代为上白垩纪的坎潘阶,约8,000万年前。大黑天神龙是种小型驰
  • 中国少鳞鳜中国少鳞鳜(学名:)为鳜科少鳞鳜属的一个物种,为亚热带淡水鱼,分布于亚洲越南及中国云南元江水系等,常生活于山地溪流以及底质为砾石的清水环境,体长可达21.4公分。该物种的模式产地
  • Sender IDSender ID是曾经加入发件人策略框架(SPF)和Caller ID的前MARID(英语:MARID) IETF工作组的一项反欺骗(英语:E-mail spoofing)协议。 Sender ID主要定义在实验性RFC 4406,而其余部分在R
  • 佩特·泽伦卡佩特‧泽伦卡 (Petr Zelenka,1976年2月27日-) 为捷克的连环杀手,曾任伊赫拉瓦医院护理师。在2006年5月到9月间,他在布拉格东南方100公里的布罗德的ARO哈夫利奇库夫布罗德医院任职
  • 佐伯区佐伯区(日语:佐伯区/さえきく  */?)是广岛市的8区之一,位于广岛市西部。在1980年代并入广岛市之前。属于旧佐伯郡五日市町,当时已逐渐成为广岛市的通勤城市,并曾经是全日本人口最
  • 路易·吕利路易·吕利(Louis Lully,1664年8月4日-1734年4月1日)作曲家,让-巴普蒂斯特·吕利(Jean-Baptiste Lully)的长子。路易·吕利在音乐事业上没有获得预期的成功,其中一部分原因是他的生
  • 王凯蒂王凯蒂(Katherine Wang,1985年11月7日-),台湾演员及主持人。毕业于美国帕森设计学院Fashion Marketing 。王凯蒂从小学就被星探追着跑,有一次庾澄庆在路上看到她,立刻叫宣传去问她联络方式,当时只有11岁的王凯蒂当场打电话给妈妈,最后在哈林公司接受一年的训练。在这期间拍摄黄子佼"YES青春期"杂志,自此演出多部广告,如菲苏得美【北斗七星痘】、《7-11关东煮》、《麦当劳调皮贱兔篇》、《桂冠火锅料火锅Party篇》等等。并与郑秀文、任贤齐演出电影“夏日么么茶”。十七岁刚从道明
  • 光点 (单曲)《光点》(英语:"Spotlight")是中国大陆歌手与演员肖战演唱、R&B曲风的单曲,2020年4月25日通过数字专辑方式,对外销售。相关报道指出,外界将《光点》视为肖战应对中国大陆网络舆论抵制风波,用以“复工”的作品。故《光点》成为现象级单曲的同时,亦陷入评价极端对立的处境。单曲的制作人员来自北美、北欧、西班牙以及荷兰。肖战除了演唱之外,还亲自创作单曲封面。封面为抽像画,肖战的解释是:“静脉和动脉的连接处是心脏,蓝色的线条和红色的线条交错,组成了爱的形状,而爱是光的原点。”鼓励自己无论明天是雨或晴,要
  • 旅行到宇宙边缘旅行到宇宙边缘(Journey To The Edge Of The Universe)是在国家地理频道和探索频道上播放的纪录片。该纪录片内容是假想的从地球到宇宙边缘的旅行。美国版的旁白是亚历克·鲍德温,英国版的则是西恩·帕特维。本纪录片只有一集,片长91分钟,于2008年12月7日首播。2009年3月31日,旅行到宇宙边缘发行蓝光光碟和 DVD。