超参数 (机器学习)

✍ dations ◷ 2025-11-23 21:27:01 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 嗜睡症嗜睡症(hypersomnia)是一种会睡眠过度的疾病,主要有两种类型:原发性嗜睡症和反复性嗜睡症。两者的症状相同,但发生频率不同。患有嗜睡症的人会反复发生过度日间嗜睡(英语:Excessive
  • 维斯孔蒂家族维斯孔蒂家族(意大利语:Visconti),或译维斯康堤、维斯康蒂,是一个中世纪至文艺复兴早期的意大利贵族家族,该家族于1277年取代德拉·托雷家族成为米兰领主,并于1395年被神圣罗马帝国
  • 密苏里密苏里州(英语:State of Missouri)是美国第24个州,一般被划分在中西部地区之内。州鸟是东蓝鸲,州歌“密苏里华尔兹”,州花为山楂花。密苏里州创建于1821年8月10日,属于路易斯安那购
  • 议长政治主题下议院议长(Speaker of the House of Commons)是英国国会下议院的议长。现任下议院议长为林赛·霍伊尔。与美国众议院议长不同,英国下议院议长需要脱离其党派,以中立身
  • SIGINTSigint或SIGINT可以指:
  • 各国最高点列表各国最高点列表罗列各主权国家和境外领土在海平面以上的最高点。以下包括国际标准化组织的ISO 3166-1国际标准所列地区。
  • 洁莉·罗包尔安洁拉·玛利亚·“洁莉”·罗包尔(德语:Angela Maria "Geli"Raubal,.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida S
  • 4分33秒《4分33秒》(英语:4′33″、Four minutes, thirty-three seconds、Four thirty-three)是由美国先锋派作曲家约翰·凯奇创作的曲子,任何乐器或乐器组合皆可演奏。此曲最特别之处为演奏者从头至尾都不需要演奏出一个音。《4分33秒》是美国先锋派作曲家约翰·凯奇最著名的音乐作品之一。任何乐器或乐器组合皆可演奏《4分33秒》,但比较常见的版本是以钢琴演奏。可是,根据《4分33秒》的乐谱显示,演奏者从头至尾都不需要奏出一个音。一般来说,钢琴演奏者在乐章之间会做出开合琴
  • 安德烈娅·德鲁斯安德烈娅·德鲁斯(英语:Andrea Drews,1993年12月25日-),美国女子排球运动员,球场位置为副攻手。现时效力于日超JT吃惊仰天。她是美国国家女子排球队队员。她代表美国出战2019年世界女排联赛及2019年世界杯女子排球赛夺得金牌及银牌,并首度在世界赛上获得最有价值球员及最佳副攻手的荣誉。
  • 松岛菜菜子松岛菜菜子(日语:松嶋 菜々子/まつしま ななこ ,1973年10月13日-),本名松岛奈奈子(日语:松嶋 奈奈子/まつしま ななこ 。日本著名女演员,曾参演多部大受欢迎的电视剧,因而有“日剧女王”的美名。所属经纪公司是Seventh avenue。丈夫是男演员反町隆史(本名野口隆史),两人育有两位女儿。松岛高一开始担任模特儿,曾经拍摄旭化成集团的广告和在《ViVi》杂志担任专用模特儿。1992年加入演艺圈,起初在电视剧担任女配角,直至1996年参加NHK电视台晨间剧《向日葵(日语:ひまわり (1996年