交叉验证

✍ dations ◷ 2025-08-23 14:58:36 #交叉验证
交叉验证,有时亦称循环估计 , 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目的,是用未用来给模型作训练的新数据,测试模型的性能,以便减少诸如过拟合和选择偏差等问题,并给出模型如何在一个独立的数据集上通用化(即,一个未知的数据集,如实际问题中的数据)。交叉验证的理论是由Seymour Geisser(英语:Seymour Geisser)所开始的。它对于防范根据数据建议的测试假设是非常重要的,特别是当后续的样本是危险、成本过高或科学上不适合时去搜集。假设有个未知模型具有一个或多个待定的参数,且有一个数据集能够反映该模型的特征属性(训练集)。适应的过程是对模型的参数进行调整,以使模型尽可能反映训练集的特征。如果从同一个训练样本中选择独立的样本作为验证集合,当模型因训练集过小或参数不合适而产生过拟合时,验证集的测试予以反映。 交叉验证是一种预测模型拟合性能的方法。常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。 随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。 一般来说,少于原本样本三分之一的数据被选做验证数据。k折交叉验证(英语:k-fold cross-validation),将训练集分割成k个子样本,一个单独的子样本被保留作为验证模型的数据,其他k − 1个样本用来训练。交叉验证重复k次,每个子样本验证一次,平均k次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。正如名称所建议,留一验证(英语:leave-one-out cross-validation, LOOCV)意指只使用原本样本中的一项来当做验证资料,而剩余的则留下来当做训练资料。这个步骤一直持续到每个样本都被当做一次验证资料。 事实上,这等同于k折交叉验证,其中k为原本样本个数。 在某些情况下是存在有效率的算法,如使用kernel regression(英语:kernel regression) 和吉洪诺夫正则化。可以计算估计误差。常见的误差衡量标准是均方差和方根均方差, 分别为交叉验证的方差和标准差。

相关

  • 托马斯·里德托马斯·里德(英文:Thomas Reid,1710年4月26日-1796年10月7日)是18世纪苏格兰启蒙运动时期哲学家,苏格兰常识学派的创始人。里德开始任教于亚伯丁大学,后到格拉斯哥大学接任亚当·
  • 美国在线美国在线(AOL Inc.,前身为:America Online,AOL),著名的互联网服务提供者,现为电信商威讯旗下Verizon Media公司的子公司。今天的美国在线,源自20世纪80年代的一家计算机服务公司Cont
  • 那不勒斯语那不勒斯语(那不勒斯文:Napulitano,意大利语:Napoletano)是通行于意大利的那不勒斯、坎帕尼亚一带的语言,属印欧语系意大利语族罗曼语族。在ISO 639-1,它未有语言代号;ISO 639-2和IS
  • 波士顿圆形瓶波士顿圆形瓶大多指瓶口小,瓶身以及瓶底大的化学器皿,用于溶剂、化学品或者样品储存,III型钠钙玻璃,可带盖或不带盖,盖子种类各有不同,常见的例如:黑酚醛树脂盖,白色聚丙烯盖。而瓶
  • 腕龙腕龙(学名:Brachiosaurus)是蜥脚下目腕龙科的一属恐龙,生活于侏罗纪晚期的北美洲,其中又以美国和加拿大的化石数量最多,但在非洲也有少量腕龙化石。腕龙是世界上最知名的恐龙之一,
  • 安东万·拉瓦锡安托万-洛朗·德·拉瓦锡(法语:Antoine-Laurent de Lavoisier,1743年8月26日-1794年5月8日),法国贵族,著名化学家、生物学家,被后世尊称为“近代化学之父”。他使化学从定性转为定量
  • 伊利诺伊州伊利诺伊州(英语:State of Illinois,i/ˌɪləˈnɔɪ/),简称伊州,是一个位于美国中西部的州,州名源自曾在此居住的伊利尼维克(Illiniwek)印第安人部落。“Illinois”这个名字就是法
  • 泰因赛德泰恩赛德(英语:Tyneside)是英国的一个都市区,位于英格兰东北部,中心都市是泰恩河畔纽卡素。据2011年英国人口普查,泰恩赛德有人口774,891 人。而根2013年估计,泰恩赛德有人口832,46
  • 朱玉贤朱玉贤(1955年12月-),中国植物生理学家。武汉大学生命科学学院教授。生于浙江富阳。1982年毕业于浙江农业大学农学系,1989年于美国康奈尔大学获博士学位,后回国担任北京大学教授,20
  • 镍过敏3d8 4s2 或 3d9 4s12, 8, 16, 2 或 2, 8, 17, 1蒸气压第一:737.1 kJ·mol−1 第二:1753.0 kJ·mol−1 第三:3395 kJ·mol−1 (主条目:镍的同位素.mw-parser-output ruby.zy{