过拟合

✍ dations ◷ 2025-09-15 07:48:10 #过拟合

在统计学中,过拟合(英语:overfitting,或称拟合过度)是指过于紧密或精确地匹配特定数据集,以致于无法良好地拟合其他数据或预测未来的观察结果的现象。过拟合模型指的是相较有限的数据而言,参数过多或者结构过于复杂的统计模型。发生过拟合时,模型的偏差小而方差大。过拟合的本质是训练算法从统计噪声中不自觉获取了信息并表达在了模型结构的参数当中。:45相较用于训练的数据总量来说,一个模型只要结构足够复杂或参数足够多,就总是可以完美地适应数据的。过拟合一般可以视为违反奥卡姆剃刀原则。

与过拟合相对应的概念是欠拟合(英语:underfitting,或称:拟合不足);它是指相较于数据而言,模型参数过少或者模型结构过于简单,以至于无法捕捉到数据中的规律的现象。发生欠拟合时,模型的偏差大而方差小。

在机器学习或人工神經网络中,过拟合与欠拟合有时也被称为“过训练(英语:overtraining)”和“欠训练(英语:undertraining)”。

之所以存在过拟合的可能,是因为选择模型的标准和评价模型的标准是不一致的。举例来说,选择模型时往往是选取在训练数据上表现最好的模型;但评价模型时则是观察模型在训练过程中不可见数据上的表现。当模型尝试“记住”训练数据而非从训练数据中学习规律时,就可能发生过拟合。一般来说,当参数的自由度或模型结构的复杂度超过数据所包含信息内容时,拟合后的模型可能使用任意多的参数,这会降低或破坏模型泛化的能力。

在统计学习和机器学习中,为了避免或减轻过拟合现象,须要使用额外的技巧(如模型选择、交叉验证、提前停止、正则化、剪枝、贝叶斯信息量准则、赤池信息量准则或dropout)。在treatment learning中,使用最小最佳支持值(英语:minimum best support value)来避免过拟合。这些方法大致可分为两类:1. 对模型的复杂度进行惩罚,从而避免产生过于复杂的模型;2. 在验证数据上测试模型的效果,从而模拟模型在实际工作环境的数据上的表现。

机器学习模型的典型产出过程是由机器学习算法在训练集上进行训练,希望得到的模型能够在训练过程中不可见的验证集上表现良好。过拟合现象发生在使用违反奥卡姆剃刀原则的模型或算法时:当引入相较数据集而言过多的参数时,或使用相较数据集而言过于复杂的模型时。

假设有一个训练集,其基准真相 y 可以用一个二元线性函数很好地预测出来。显而易见,该函数只有3个参数:一个截距,两个斜率。将该函数替换成更为复杂的二次函数或更多元的线性函数的风险在于:奥卡姆剃刀表明,相较于给定的简单函数,任何给定的复杂函数的预测都更不可靠。:358如果最终选择了复杂函数而非简单函数;并且在拟合训练数据时相较简单函数,复杂函数带来的收益没有抵消模型复杂度的增加,那么复杂函数就过拟合了数据。此时,尽管复杂函数在训练集上的表现与简单函数相同甚至更好,但在训练数据之外的验证数据上的表现,复杂函数可能会更糟糕。

在确定模型复杂度时,简单地计算各模型中参数的数量是不可靠的,还需要考虑参数的表达方式。举例来说,直接比较带有 m 个参数的神经网络(它能够跟踪非线性关系)和带有 n 个参数的回归模型是非平凡的。

过拟合尤其容易在训练迭代次数相对有限训练样本过多的时候。此时,模型会拟合训练数据中特征的随机噪声,而这些与目标函数(英语:Function_approximation)之间并无因果关系。在这种过拟合的过程中,模型在训练样本上的效果会持续提升,但在训练中不可见的数据(通常是验证集)上的效果会变得更差。举个简单的例子:假设有一个数据集,其中包含了零售的物品、买家、购买日期、购买时间。人们很容易在这个数据集上构造模型,来根据购买日期和购买时间预测其他属性;但该模型在新数据上没有任何泛化性能,因为过去的时间再也不会出现了。

概括地说,机器学习算法在已知数据上很精确但在新数据上不精确的情形,可以称之为过拟合。人们可以这样在直觉上理解过拟合:“过去的经验可被分为两个部分:与将来有关的数据、与将来无关的数据(噪声)”。在其他条件都相同的情况下,预测的难度越大(不确定性越高),则过去信息中需要被当做噪声忽略的部分就越多。问题的难点在于,如何确定哪些数据应当被忽略。

能够避免拟合噪声的机器学习算法是健壮的算法。

过拟合最显著的后果就是在验证集上的效果很差;其他后果罗列如下:

相关

  • 楚科奇族楚科奇人(楚科奇语:лыгъоравэтльат 、(ԓыгъоравэтԓьат), луораветлат (оравэтԓьат),俄语:чукчи)是俄罗斯远东地区的一个
  • 智者雅罗斯拉夫雅罗斯拉夫一世·弗拉基米罗维奇(智者)(乌克兰语:Ярослав Володимирович Мудрий;俄语:Ярослав I Владимирович Мудрый,约978
  • 布赖恩·博鲁布赖恩·博鲁(英语:Brian Boru、古爱尔兰语:Brian Bóruma mac Cennétig、中古爱尔兰语:Brian Bóruma、现代爱尔兰语:Brian Bóramha,约941年-1014年4月23日),爱尔兰至尊王。布赖恩
  • 吴强 (1910年)吴强(1910年-1990年4月10日),原名汪大同、汪六滨,笔名吴蔷、叶如桐等,江苏涟水人,中国作家。著有长篇小说《红日》、《堡垒》等。吴强是江苏省涟水县高沟镇人,自幼喜读《西游记》、
  • 秘书监秘书监是中国古代官制,用于掌管皇家经籍图书,是秘书省的长官。东汉延熹二年(159年)始置秘书监,掌管皇家经籍图书,属太常寺,不久废置。魏文帝又置,属少府。南北朝以后有秘书省,为秘书
  • 贾里亚卡斯贾里亚卡斯(Jharia Khas),是印度贾坎德邦Dhanbad县的一个城镇。总人口19808(2001年)。该地2001年总人口19808人,其中男性10878人,女性8930人;0—6岁人口3311人,其中男1707人,女1604人;
  • 阿尔卑斯谷 (月球)阿尔卑斯月谷(意大利文是"Alpine Valley")是月球上将阿尔卑斯山脉一分为二的山谷地形。它从雨海盆地绵延166公里,以东北偏东的走向抵达冷海的边缘。月谷两端狭窄,中间最宽处约10
  • 1896年夏季奥林匹克运动会丹麦代表团1896年夏季奥林匹克运动会丹麦代表团派出三名运动员参加五项比赛项目。三人其中的两人合共赢得一枚金牌、两枚银牌和三枚铜牌,而尤根·施密特则没有获得任何奖牌。延森及尼尔森都在射击比赛中获得铜牌,尼尔森还获得了银牌。延森在步枪项目中分别在200米军用步枪42人中的第六位以及在300米步枪三姿20人中的第三位;尼尔森在200米军用步枪没有完成比赛,但在手枪项目中表现出色,赢得两枚奖牌。在两手举比赛,延森与朗塞斯顿·埃利奥特 (Launceston Elliot) 同样举起111.5公斤一样成绩,乔治王子作出裁决
  • 马西·埃索马西·昆勒·埃索(英语:Maxie Kunle Esho,1991年2月28日-)为美国男子篮球运动员,场上位置为中锋。埃索生于美国上马尔伯勒,在马萨诸塞大学阿默斯特分校毕业后,被NBA发展联盟艾奥瓦灰狼挑选加盟,在2016年加盟塞浦路斯甲组联赛球队恩科米(英语:ETHA Engomis),在10场赛事中场均得到18.8分,还在该赛季荣膺联赛的优秀奖和入选全明星赛,其后他加盟以色列联赛球队拉马特沙龙(英语:A.S. Ramat HaSharon),并在13场赛事中场均得到20.6分,成为球队的第5高得分球
  • 瓦西尔·列夫斯基瓦西尔·列夫斯基(保加利亚语:Васил Левски,发音),原名瓦西尔·伊凡诺夫·库恩切夫(保加利亚语:Васил Иванов Кунчев)(1837年7月18日-1873年2月18日),保加利亚革命家,19世纪末参加领导反土耳其统治的武装斗争,被视为保加利亚民族英雄。瓦西尔·列夫斯基生于奥斯曼土耳其帝国鲁米利亚省卡尔洛沃。列夫斯基积极参加反抗土耳其统治的武装斗争。1872年,列夫斯基被土耳其当局被捕,1873年,被土当局判处绞刑,1873年,在索菲亚行刑处决。列夫斯基就义地现成为瓦西尔·列夫斯基