过拟合

✍ dations ◷ 2025-08-22 13:48:22 #过拟合

在统计学中,过拟合(英语:overfitting,或称拟合过度)是指过于紧密或精确地匹配特定数据集,以致于无法良好地拟合其他数据或预测未来的观察结果的现象。过拟合模型指的是相较有限的数据而言,参数过多或者结构过于复杂的统计模型。发生过拟合时,模型的偏差小而方差大。过拟合的本质是训练算法从统计噪声中不自觉获取了信息并表达在了模型结构的参数当中。:45相较用于训练的数据总量来说,一个模型只要结构足够复杂或参数足够多,就总是可以完美地适应数据的。过拟合一般可以视为违反奥卡姆剃刀原则。

与过拟合相对应的概念是欠拟合(英语:underfitting,或称:拟合不足);它是指相较于数据而言,模型参数过少或者模型结构过于简单,以至于无法捕捉到数据中的规律的现象。发生欠拟合时,模型的偏差大而方差小。

在机器学习或人工神經网络中,过拟合与欠拟合有时也被称为“过训练(英语:overtraining)”和“欠训练(英语:undertraining)”。

之所以存在过拟合的可能,是因为选择模型的标准和评价模型的标准是不一致的。举例来说,选择模型时往往是选取在训练数据上表现最好的模型;但评价模型时则是观察模型在训练过程中不可见数据上的表现。当模型尝试“记住”训练数据而非从训练数据中学习规律时,就可能发生过拟合。一般来说,当参数的自由度或模型结构的复杂度超过数据所包含信息内容时,拟合后的模型可能使用任意多的参数,这会降低或破坏模型泛化的能力。

在统计学习和机器学习中,为了避免或减轻过拟合现象,须要使用额外的技巧(如模型选择、交叉验证、提前停止、正则化、剪枝、贝叶斯信息量准则、赤池信息量准则或dropout)。在treatment learning中,使用最小最佳支持值(英语:minimum best support value)来避免过拟合。这些方法大致可分为两类:1. 对模型的复杂度进行惩罚,从而避免产生过于复杂的模型;2. 在验证数据上测试模型的效果,从而模拟模型在实际工作环境的数据上的表现。

机器学习模型的典型产出过程是由机器学习算法在训练集上进行训练,希望得到的模型能够在训练过程中不可见的验证集上表现良好。过拟合现象发生在使用违反奥卡姆剃刀原则的模型或算法时:当引入相较数据集而言过多的参数时,或使用相较数据集而言过于复杂的模型时。

假设有一个训练集,其基准真相 y 可以用一个二元线性函数很好地预测出来。显而易见,该函数只有3个参数:一个截距,两个斜率。将该函数替换成更为复杂的二次函数或更多元的线性函数的风险在于:奥卡姆剃刀表明,相较于给定的简单函数,任何给定的复杂函数的预测都更不可靠。:358如果最终选择了复杂函数而非简单函数;并且在拟合训练数据时相较简单函数,复杂函数带来的收益没有抵消模型复杂度的增加,那么复杂函数就过拟合了数据。此时,尽管复杂函数在训练集上的表现与简单函数相同甚至更好,但在训练数据之外的验证数据上的表现,复杂函数可能会更糟糕。

在确定模型复杂度时,简单地计算各模型中参数的数量是不可靠的,还需要考虑参数的表达方式。举例来说,直接比较带有 m 个参数的神经网络(它能够跟踪非线性关系)和带有 n 个参数的回归模型是非平凡的。

过拟合尤其容易在训练迭代次数相对有限训练样本过多的时候。此时,模型会拟合训练数据中特征的随机噪声,而这些与目标函数(英语:Function_approximation)之间并无因果关系。在这种过拟合的过程中,模型在训练样本上的效果会持续提升,但在训练中不可见的数据(通常是验证集)上的效果会变得更差。举个简单的例子:假设有一个数据集,其中包含了零售的物品、买家、购买日期、购买时间。人们很容易在这个数据集上构造模型,来根据购买日期和购买时间预测其他属性;但该模型在新数据上没有任何泛化性能,因为过去的时间再也不会出现了。

概括地说,机器学习算法在已知数据上很精确但在新数据上不精确的情形,可以称之为过拟合。人们可以这样在直觉上理解过拟合:“过去的经验可被分为两个部分:与将来有关的数据、与将来无关的数据(噪声)”。在其他条件都相同的情况下,预测的难度越大(不确定性越高),则过去信息中需要被当做噪声忽略的部分就越多。问题的难点在于,如何确定哪些数据应当被忽略。

能够避免拟合噪声的机器学习算法是健壮的算法。

过拟合最显著的后果就是在验证集上的效果很差;其他后果罗列如下:

相关

  • 骑士精神骑士精神,是中世纪欧洲上层社会的一种精神文明,它是以个人身份的优越感为基础的道德与人格的表现,但它也积淀着西欧民族远古尚武精神的某些积极因素,继承了古代欧洲部落文明至早
  • 厌恶厌恶(英语:disgust)是对于令人反感或使人不悦的事物所产生强烈嫌恶的一种情绪反应。查尔斯·达尔文在《人类与动物的情绪表达(英语:The Expression of the Emotion in Man and An
  • 西里伯斯海西里伯斯海(英语:Celebes Sea;菲律宾语:Dagat Selebes)又名苏拉威西海(印尼语:Laut Sulawesi),是太平洋西部的一个陆缘海,位于棉兰老岛、苏禄群岛以南,加里曼丹岛以东,苏拉威西岛以北,东
  • 史氏伞管螺史氏伞管螺(学名:),是柄眼目烟管蜗牛科伞管螺属的一种。本物种见于中国大陆的湖南省。常栖息在热带、亚热带雨林中的潮湿,多腐殖质环境,栖息于石灰岩、岩缝、洞穴及潮湿的树干上。
  • 保罗·库克保罗·库克(Paul Cook;1943年3月3日-)是美国的一位政治人物。自2013年开始,他是加利福尼亚州第8选举区选出的美国众议院议员。他的党籍是共和党。他曾经在美国海军陆战队服役,官至
  • 朱运昌朱运昌(?-?),字允升,直隶镇江府丹徒县人,云南云南前卫军籍,明朝政治人物。云南乡试第十八名,万历八年(1580年)庚辰科会试第二百十七名,登三甲第一百九十一名进士。万历三十一年左右任福建
  • 火车票实名制火车票实名制是指每个火车站售票点、代售处对购票的乘客实行实名登记。此制度见于部分国家如中国大陆、印度、俄罗斯、古巴等。也有许多国家法律允许匿名。由于大陆每年春运
  • 巴斯克地区联合巴斯克地区联合(巴斯克语:Euskal Herria Bildu),简称比尔杜(EH Bildu),是西班牙巴斯克自治区的一个左翼民族主义政党联盟,拥有注册政党地位。该
  • 埃玛·勒杜卡努埃玛·勒杜卡努,MBE(英语:Emma Raducanu;2002年11月13日-),是一位英国女职业网球运动员。她在2021年温布尔登网球锦标赛中以外卡身份,首次参加大满贯就爆冷打进16强,一战成名,但最后在比赛第二盘中因伤退赛而止步。随后于2021年美国网球公开赛从资格赛打起,一路连胜10场且一盘未失,赢得女子单打冠军,成为公开赛时代第一位赢得单打冠军的资格赛选手。2021年12月31日,勒杜卡努获得MBE勋衔。勒杜卡努(罗马尼亚语拼写Răducanu)生于加拿大多伦多,父亲伊安(Ian)为来自罗马尼
  • 美国总统选举阿肯色州选情阿肯色州为美国中南部的州,1836年6月加入联邦(英语:admission to the Union)以来,历经46届美国总统选举。在政党重组的1860年选举,阿肯色州为10个未为共和党籍候选人亚伯拉罕·林肯提供选票的蓄奴州之一。之后约翰·C·布雷肯里奇以微弱优势在阿肯色州胜出,成为首位在阿肯色州胜出的第三党籍候选人。是次选举后不久,阿肯色州脱离美利坚合众国,加入美利坚联盟国,于是未举行1864年总统选举。南北战争后的1868年,阿肯色州重新加入合众国。在1872年选举(英语:1872 United St