超参数 (机器学习)

✍ dations ◷ 2025-04-04 11:09:50 #超参数 (机器学习)

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。

超参数可分为模型超参数(Model Hyperparameters)和算法超参数(Algorithm Hyperparameters)。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批量大小(Batch size)、小批量大小(Mini-Batch size)则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。给定超参数,训练算法会从数据中学习参数。例如,LASSO算法在普通最小二乘回归中加入正则化超参数,在通过训练算法估计参数之前,必须先设置这个超参数。

对模型的训练和测试所需的时间可能取决于其超参数的选择。

一个超参数通常是实数或是整数,因此存在混合型的优化问题。一些超参数的选取依赖于其他参数的值(例如神经网络每个隐藏层的大小可以与层的数量相关)。

超参数通常并不能使用梯度类算法(例如梯度下降、LBFGS)来学习;这些梯度类算法通常用于学习其它参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。

部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回归模型的多项式方程的度数作为一个可训练参数,多项式的度数会增加到模型可以完全拟合数据,此时训练误差极低,但泛化性能差。

性能变化往往归因于个别几个超参数。算法、超参数或相互作用超参数的可调性用于衡量对其调整可以获得多少性能的标准。对于LSTM来说,学习率和网络大小是关键的超参数,而批量(Batching)和动量(Momentum)则对其性能没有显著影响。

部分研究主张小批量大小(Mini-Batch size)应该为数千,而其他研究表明,小批量大小在2到32之间的性能最好。

学习中存在的随机性表明经验性的超参数选取并不一定反应其真实性能。如果方法对超参数、随机数种子、甚至算法的不同实现方式的简单变化不具有稳健性,则在不进行简化和稳健化前,不能被集成到关键任务的控制系统中。

强化学习算法不仅需要在大量的随机种子上测量它们的性能,还需要测试对超参数选择的敏感性。由于变异性,仅用少量的随机种子进行的评估并不能充分反应出性能。部分强化学习方法(例如Deep Deterministic Policy Gradient,DDPG)对超参数的选择比其他算法更敏感。

超参数优化找到一个超参数的元组(Tuple),产生一个最佳模型,使得给定测试数据集的损失函数最小。目标函数接收超参数的元组,并返回对应的损失。

除超参数的调整外,机器学习还涉及到参数和结果的存储和组织,并确保它们是可重复的。

相关

  • 国际语音学学会国际语音学学会(The International Phonetic Association,IPA),1886年创立于巴黎,是世上最悠久的语音学家代表组织。其成立目标为促进语音学之研究,目前该学会订有国际音标一套,为
  • 魂灵投射灵魂投射(astral projection; astral travel;或者星光投射、太空投射)是一种以存在着“星光体”离开物理体而能够出体旅行的假定所诠释的出体体验。超自然学说声称魂魄是肉体的
  • 香獐麝,俗称香獐,在有角下目是现存最原始的科,种类少,无角,雄性有发达獠牙。下设一属麝属,有七个种,包括原麝、林麝、黑麝、喜马拉雅麝、安徽麝(原被认为是林麝的亚种)、白腹麝(也常被称为
  • 经济民族主义经济民族主义(又称经济民粹主义)属于一种意识形态,主张经济干预主义胜于其他市场机制。其政策包括对经济,劳动力和资本形成的控制,即使这需要施加关税和其他限制。经济民族主义者
  • 中国计算机科学大事年表中国计算机科学大事年表按照时间顺序罗列了中华人民共和国建国以来,在计算机科学领域发生的重大事件。中科院自动化所与医学专家合作开发出第一个关幼波肝炎人工智能专家系统
  • 曹操 (演员)曹操(Cao-Cao),原名乔纳森·科斯-瑞德(Jonathan Kos-Read,1973年-),美国电影和中国大陆电视剧演员。在中国大陆期间,他祖国的人很少知道其在中国大陆很出名。科斯·瑞德的“曹操”这
  • 钱仪吉钱仪吉(1783年-1850年),初名逵吉,字蔼人,号衎石,又号新梧。浙江嘉兴人,清朝政治人物,进士出身。生于清高宗乾隆四十八年(1783年)自幼与从弟钱泰吉以学行相磨,号称“嘉兴二石”。嘉庆十三
  • 2013年捷克打击组织犯罪行动2013年捷克打击组织犯罪行动是指在2013年6月13日时,捷克警方(英语:Police of the Czech Republic)辖下的打击组织犯罪单位(Útvar pro odhalování organizovaného zločinu)和
  • 马雷岛 (印尼)马雷岛(印尼语:Mare)是一座位于印度尼西亚哈马黑拉岛以西的火山岛,岛屿面积为2千米(1.2英里)×3千米(1.9英里),属于哈马黑拉岛火山弧的一部分。
  • 韩梅韩梅(1962年8月-),女,苗族,云南威信人,中华人民共和国政治人物,中国共产党党员,第十三届全国人民代表大会云南省代表。2018年,韩梅被选为云南省出席第十三届全国人民代表大会代表。