超参数 (机器学习)

✍ dations ◷ 2025-11-23 12:50:45 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 威廉·赫斯特威廉·蓝道夫·赫斯特(William Randolph Hearst,1863年4月29日-1951年8月14日)美国报业大王、企业家,赫斯特国际集团(Hearst Corporation)的创始人。赫斯特是一位在新闻史上饱受争
  • 山额夫人桑格夫人(英语:Mrs. Sanger),全名:玛格丽特·希金斯·桑格(Margaret Higgins Sanger,1879年9月14日-1966年9月6日),出生名:玛格丽特·路易丝·希金斯(Margaret Louise Higgins),美国控制
  • 女商人女商人是女性的商人或企业家,或从事商业的女性。女性从事商业的历史和商业的历史一样久远。在现代,女商人的待遇常低于男商人。早在秦朝就有女商人,《史记》记载了巴寡妇清。清
  • 沈国舫沈国舫(1933年11月15日-),浙江嘉善人,生于上海市。中国林学家,曾担任八、九、十届全国政协委员。1951年肄业于北京农业大学森林系,后公派苏联列宁格勒林学院(俄语:Санкт-Пет
  • 阿布扎比投资局阿布扎比投资局 (ADIA) 是由阿联酋建立并持有的主权投资基金。该基金是全球著名的主权投资基金,管理着近8000亿美金的资本
  • 国际奥林匹克委员会第120次全体会议国际奥林匹克委员会第120次全体会议于2008年8月5日至8月7日在北京举行。开幕式4日晚在中国国家大剧院举行。胡锦涛出席开幕式并发表致辞。国际奥林匹克委员会于2008年8月7日
  • 叠涩拱叠涩拱,建筑学名词,指用砖石层层堆叠向内收最终在中线合拢成的拱。叠涩拱技术起源甚早,在玛雅、古希腊等古代文明均有所发现。位于爱尔兰东北部,大约建于公元前3000年的纽格莱奇
  • 石枚冬青石枚冬青(学名:)是冬青科冬青属的植物,为中国的特有植物。分布于中国大陆的海南等地,生长于海拔10米的地区,常生长在滨海砂地,目前已由人工引种栽培。
  • Keroro军曹角色列表Keroro军曹角色列表为日本动漫作品《Keroro军曹》中登场角色的相关介绍。注:毒蛇(Viper),或译为“威霸”。K隆星人的天敌,但相当恐惧Keroro的父亲,动画第143集机械毒蛇R曾表示,当战场上出现“YoKa YoKa(Keroro的父亲的口头禅)”的叫声时,表示毒蛇一族的克星出现了。所有毒蛇都差不多一模一样,以前与Keroro小队战斗时弟弟失败、哥哥逃亡。家族成员众多,不过每一名毒蛇都能记住家族的关系。每只毒蛇登场时都会自我介绍:“我是上次那个毒蛇的(亲缘关系)”,然后台版旁白就会讲“毒蛇
  • 禁止教务禁止教务(英语:Interdict;德语:Interdikt;拉丁语:Interdicere)是一种天主教处罚,一旦被处以“禁止教务”的处罚,从弥撒到出生洗礼、婚礼、葬礼统统不能举行。开除教籍是给个人的处罚,而禁止教务则是给居民共同体的处罚。中世纪罗马教廷常用禁止教务与开除教籍处罚俗界。