超参数 (机器学习)

✍ dations ◷ 2025-12-04 00:23:21 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 景观流行病学景观流行病学是研究疾病与环境因素之间的关系的科学。类似景观生态学, 景观流行病学通过分析风险模型和环境风险因素,来控制疾病的传播。1996年,叶甫根尼·帕夫洛夫斯基提出了
  • 开放两岸探亲开放两岸探亲是1987年11月2日,时任中华民国总统蒋经国有感于台海两岸之间的亲人分离太久,决定让凡在中国大陆有三亲等内血亲、姻亲或配偶的民众登记赴大陆探亲。在开放两岸探
  • 居酒屋居酒屋又称酒馆,是提供酒类和饭菜的料理店。与只提供酒类为中心点的普通酒馆不同,居酒屋提供比较有质量的饭菜,但却不同于小吃店。居酒屋是具有日本特色的饮食店。不过,在其他国
  • 拜见岳父大人2《拜见岳父大人2》(英语:)是一部2004年上映的美国喜剧电影,也是《拜见岳父大人》的续集。由积·罗治执导,罗伯特·德尼罗和本·斯蒂勒主演,沿用《拜见岳父大人》的原装班底:达斯汀
  • 奥伯隆奥伯隆(英语:Oberon)是欧洲民间传说中的妖精之王(英语:Fairy King)。他和妻子缇坦妮雅在英国戏剧家威廉·莎士比亚的作品《仲夏夜之梦》中亦有登场。他在剧中的妖精王形象,于公演后
  • 约翰·麦克道尔·斯图尔特约翰·麦克道尔·斯图尔特(英语:John McDouall Stuart,1815年9月7日-1866年6月5日),经常被简称为麦克道尔·斯图尔特(McDouall Stuart),是苏格兰裔(英语:Scottish Australians)探险家,亦
  • 回銮训民诏书《回銮训民诏书》是满洲国皇帝溥仪在1935年5月2日颁布的一份诏书。1935年4月2日,溥仪前往日本进行访问。5月2日,溥仪在勤民楼举行了《回銮训民诏书》颁发式,向简任以上的文官,少
  • 卡普肯普卢伊乡坐标:.mw-parser-output .geo-default,.mw-parser-output .geo-dms,.mw-parser-output .geo-dec{display:inline}.mw-parser-output .geo-nondefault,.mw-parser-output .geo-multi-punct{display:none}.mw-parser-output .longitude,.mw-parser-output .latitude{white-space:n
  • 百慕大惊魂 (X档案)《百慕大惊魂》(英语:)是美国科幻电视剧《X档案》第六季的第三集,于1998年11月22日通过福克斯电视网在美国首播。节目由剧集主创人克里斯·卡特编剧并执导,属“每周怪物”系列作品,同主线剧情的层层谜团没有联系。本集首播的尼尔森家庭收视比率为10.8,观众人数约有1820万。《百慕大惊魂》得到评论界的普遍好评,许多评论家都对节目独特的摄制风格赞赏有加。联邦调查局特工福克斯·穆德(大卫·杜考夫尼)和丹娜·斯嘉丽(吉莲·安德森饰)受命调查人称“X档案”的悬案,这些案件大多同超自然现象有关。穆德相信有超自然现象
  • 张文诩张文诩(?-?),隋朝学者,河东人。张文诩父亲张琚,开皇年间为洹水县令,以清正著称。有数千卷书,教育子侄,都以明经显达。张文诩博览文籍,特精通《三礼》,对《周易》、《诗经》、《书经》及《春秋三传》,都通晓熟悉。时常赞赏郑玄注解,以为精通渊博,其他诸儒异说,也都详细研究。隋文帝招揽天下名儒硕学之士,其中房晖远、张仲让、孔笼,都聘请担任博士之位。张文诩当时在太学学习,房晖远等人无不推崇他,学校内大家一心敬仰。门生们多造访张文诩,请求答疑解惑,张文诩于是博广泛引用证据,从各方面辨说,让他们自己选择解答。治书侍御