过拟合

✍ dations ◷ 2025-03-01 19:57:54 #过拟合

在统计学中,过拟合(英语:overfitting,或称拟合过度)是指过于紧密或精确地匹配特定数据集,以致于无法良好地拟合其他数据或预测未来的观察结果的现象。过拟合模型指的是相较有限的数据而言,参数过多或者结构过于复杂的统计模型。发生过拟合时,模型的偏差小而方差大。过拟合的本质是训练算法从统计噪声中不自觉获取了信息并表达在了模型结构的参数当中。:45相较用于训练的数据总量来说,一个模型只要结构足够复杂或参数足够多,就总是可以完美地适应数据的。过拟合一般可以视为违反奥卡姆剃刀原则。

与过拟合相对应的概念是欠拟合(英语:underfitting,或称:拟合不足);它是指相较于数据而言,模型参数过少或者模型结构过于简单,以至于无法捕捉到数据中的规律的现象。发生欠拟合时,模型的偏差大而方差小。

在机器学习或人工神經网络中,过拟合与欠拟合有时也被称为“过训练(英语:overtraining)”和“欠训练(英语:undertraining)”。

之所以存在过拟合的可能,是因为选择模型的标准和评价模型的标准是不一致的。举例来说,选择模型时往往是选取在训练数据上表现最好的模型;但评价模型时则是观察模型在训练过程中不可见数据上的表现。当模型尝试“记住”训练数据而非从训练数据中学习规律时,就可能发生过拟合。一般来说,当参数的自由度或模型结构的复杂度超过数据所包含信息内容时,拟合后的模型可能使用任意多的参数,这会降低或破坏模型泛化的能力。

在统计学习和机器学习中,为了避免或减轻过拟合现象,须要使用额外的技巧(如模型选择、交叉验证、提前停止、正则化、剪枝、贝叶斯信息量准则、赤池信息量准则或dropout)。在treatment learning中,使用最小最佳支持值(英语:minimum best support value)来避免过拟合。这些方法大致可分为两类:1. 对模型的复杂度进行惩罚,从而避免产生过于复杂的模型;2. 在验证数据上测试模型的效果,从而模拟模型在实际工作环境的数据上的表现。

机器学习模型的典型产出过程是由机器学习算法在训练集上进行训练,希望得到的模型能够在训练过程中不可见的验证集上表现良好。过拟合现象发生在使用违反奥卡姆剃刀原则的模型或算法时:当引入相较数据集而言过多的参数时,或使用相较数据集而言过于复杂的模型时。

假设有一个训练集,其基准真相 y 可以用一个二元线性函数很好地预测出来。显而易见,该函数只有3个参数:一个截距,两个斜率。将该函数替换成更为复杂的二次函数或更多元的线性函数的风险在于:奥卡姆剃刀表明,相较于给定的简单函数,任何给定的复杂函数的预测都更不可靠。:358如果最终选择了复杂函数而非简单函数;并且在拟合训练数据时相较简单函数,复杂函数带来的收益没有抵消模型复杂度的增加,那么复杂函数就过拟合了数据。此时,尽管复杂函数在训练集上的表现与简单函数相同甚至更好,但在训练数据之外的验证数据上的表现,复杂函数可能会更糟糕。

在确定模型复杂度时,简单地计算各模型中参数的数量是不可靠的,还需要考虑参数的表达方式。举例来说,直接比较带有 m 个参数的神经网络(它能够跟踪非线性关系)和带有 n 个参数的回归模型是非平凡的。

过拟合尤其容易在训练迭代次数相对有限训练样本过多的时候。此时,模型会拟合训练数据中特征的随机噪声,而这些与目标函数(英语:Function_approximation)之间并无因果关系。在这种过拟合的过程中,模型在训练样本上的效果会持续提升,但在训练中不可见的数据(通常是验证集)上的效果会变得更差。举个简单的例子:假设有一个数据集,其中包含了零售的物品、买家、购买日期、购买时间。人们很容易在这个数据集上构造模型,来根据购买日期和购买时间预测其他属性;但该模型在新数据上没有任何泛化性能,因为过去的时间再也不会出现了。

概括地说,机器学习算法在已知数据上很精确但在新数据上不精确的情形,可以称之为过拟合。人们可以这样在直觉上理解过拟合:“过去的经验可被分为两个部分:与将来有关的数据、与将来无关的数据(噪声)”。在其他条件都相同的情况下,预测的难度越大(不确定性越高),则过去信息中需要被当做噪声忽略的部分就越多。问题的难点在于,如何确定哪些数据应当被忽略。

能够避免拟合噪声的机器学习算法是健壮的算法。

过拟合最显著的后果就是在验证集上的效果很差;其他后果罗列如下:

相关

  • 阿富汗前国王18世纪前,现代阿富汗国家所控制的区域是分裂的,多数地区是被的印度的莫卧儿帝国统治。西部的赫拉特属于波斯的萨非王朝,北部的马扎里沙里夫属于布哈拉汗国。南部的坎大哈是莫卧
  • 赵怀义赵怀义主教(1880年10月4日-1927年10月14日),圣名斐理伯,天主教第一批六名中国籍主教之一。生于北京长辛店一老教友家庭。1893年入北京北堂小修院。1904年2月27日晋铎。此后在宣化
  • 现在论哲学的现在论(presentism)是认为过去和未来都不存在的观点。 在某些版本的现在论中,现在论承认了有无时间性的物件或理念(例如数字)存在。根据现在论,只存在过去或未来的事件和物
  • 弗里德里希·保卢斯弗里德里希·威廉·恩斯特·保卢斯(德语:Friedrich Wilhelm Ernst Paulus;1890年9月23日-1957年2月1日),或译为保罗斯,是第二次世界大战期间德国的一名陆军将领,1943年晋升为元帅。
  • PyConPyCon(Python Conference)是指一系列专门探讨和推广Python编程语言的会议。起源于美国,但也在其他许多有活跃Python开发者社区的国家举办活动。此外还有一些会议专门对科学家推
  • 华灯初上华灯初上,又称蓝色时刻、魔幻时刻、蓝色时间,是暮光在一段时间内,(在早晨与傍晚发生的航海暮光)当太阳处在地平线以下的深处,并且残留的阳光间接性的呈现蓝色阴影,这与大部分在晴朗
  • 陈共公陈共公(?-前614年),妫姓,名朔,为春秋诸侯国陈国君主之一,他为陈穆公儿子,承袭陈穆公担任该国君主,在位期间为前631年—前614年,共在位18年。周 → 秦 | 吴 | 姜齐 → 田齐 | 鲁 | 燕 |
  • AMX-13改进/衍生型号本条目介绍法国AMX-13轻型坦克的改进型号以及衍生型号。在1959年5月,法军在一辆AMX-13坦克的底盘上安装了M24霞飞坦克的炮塔。因为AMX-13原来的火炮发射的高爆弹威力不足,而M2
  • 理查德·冈恩理查德·冈恩(英语:Richard Gunn,1871年2月16日-1961年6月23日),英国男子拳击运动员。他曾代表英国参加1908年夏季奥林匹克运动会拳击比赛,获得男子126磅级金牌。他也在1920年夏季奥运会上担任裁判。
  • 总线仲裁总线仲裁是许多计算机总线支持的一项功能,它使连接到总线的设备能够启动直接内存访问(DMA) 事务。它也被称为第一方 DMA ,与第三方 DMA 不同,第三方 DMA实际上由系统DMA 控制器执行其传输功能。某些类型的总线只允许一个设备(通常是CPU或其代理)启动事务。大多数现代总线架构,例如PCI ,允许多个设备作为总线控制器,因为这能够显著提高通用操作系统的性能。一些实时操作系统禁止外设成为总线控制器之一,因为在此条件下,调度程序无法进行总线仲裁,可能会增加不可控的延迟。虽然总线仲裁理论上允许一个外围设