交叉验证

✍ dations ◷ 2025-05-16 01:44:05 #交叉验证
交叉验证,有时亦称循环估计 , 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目的,是用未用来给模型作训练的新数据,测试模型的性能,以便减少诸如过拟合和选择偏差等问题,并给出模型如何在一个独立的数据集上通用化(即,一个未知的数据集,如实际问题中的数据)。交叉验证的理论是由Seymour Geisser(英语:Seymour Geisser)所开始的。它对于防范根据数据建议的测试假设是非常重要的,特别是当后续的样本是危险、成本过高或科学上不适合时去搜集。假设有个未知模型具有一个或多个待定的参数,且有一个数据集能够反映该模型的特征属性(训练集)。适应的过程是对模型的参数进行调整,以使模型尽可能反映训练集的特征。如果从同一个训练样本中选择独立的样本作为验证集合,当模型因训练集过小或参数不合适而产生过拟合时,验证集的测试予以反映。 交叉验证是一种预测模型拟合性能的方法。常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。 随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。 一般来说,少于原本样本三分之一的数据被选做验证数据。k折交叉验证(英语:k-fold cross-validation),将训练集分割成k个子样本,一个单独的子样本被保留作为验证模型的数据,其他k − 1个样本用来训练。交叉验证重复k次,每个子样本验证一次,平均k次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。正如名称所建议,留一验证(英语:leave-one-out cross-validation, LOOCV)意指只使用原本样本中的一项来当做验证资料,而剩余的则留下来当做训练资料。这个步骤一直持续到每个样本都被当做一次验证资料。 事实上,这等同于k折交叉验证,其中k为原本样本个数。 在某些情况下是存在有效率的算法,如使用kernel regression(英语:kernel regression) 和吉洪诺夫正则化。可以计算估计误差。常见的误差衡量标准是均方差和方根均方差, 分别为交叉验证的方差和标准差。

相关

  • 基因体基因组(genome)在生物学中,是指一个生物体所包含的DNA(部分病毒是RNA)里的全部遗传信息,又称基因体。基因组包括基因和非编码DNA。1920年,德国汉堡大学植物学教授汉斯·温克勒(Hans
  • 墨西哥墨西哥合众国(西班牙语:Estados Unidos Mexicanos,  聆听 帮助·信息)(英文:United States of Mexico ),通称墨西哥(西班牙语:México .mw-parser-output .IPA{font-family:"Charis
  • 再生障碍性贫血再生不良性贫血(aplastic anemia/aplastic anaemia)也叫再生障碍性贫血(简称再障),是指骨髓未能生产足够或新的细胞来补充血液细胞的情况。一般来说,贫血是指低的红血球统计,但患有
  • 性唤起性刺激是能激起性兴奋、性冲动或性快感的感官刺激,可以是视觉的刺激,触觉上的刺激,或其他感官上的刺激。依据情况的不同,人会因各种因素感受到生理或心理上的性兴奋。性兴奋可能
  • 人文科学人文科学(英语:Human science),对于由人类产生的各种现象,进行的各种科学研究与科学解释。在这个领域中研究的主题,包括各种与人类相关的经验,活动,社会建构等。其目的在于阐明与扩
  • 马尔库斯·维特鲁威·波利奥马尔库斯·维特鲁威·波利奥(Marcus Vitruvius Pollio,约公元前80年或前70年-约公元前25年)是古罗马的作家、建筑师和工程师,他的创作时期在公元前1世纪,他的生平不详,连他的名字
  • 冒烟点冒烟点(德语:Rauchpunkt;英语:smoke point),也称为发烟点,是指加热的油开始产生烟的最低温度。在此温度之下,一些挥发物质如水、游离脂肪酸、氧化降解之短链产物会从油品逸散出来,产
  • 罗斯巴什迈克尔·莫里斯·罗斯巴什(英语:Michael Morris Rosbash,1944年3月7日-),美国遗传学家,布兰戴斯大学教授和霍华德·舒尔兹医学研究所研究员。1984年他和杰弗里·霍尔的研究小组克隆
  • 诺贝尔奖争议诺贝尔奖争议是一些关于历史上诺贝尔奖获奖者所产生的争议,而历年来文学奖与和平奖所招致的争议最多。诺贝尔奖是根据瑞典化学家阿尔弗雷德·诺贝尔的遗嘱所设立的奖项。他在
  • 美国国家卫生总局美国国立卫生研究院(英语:National Institutes of Health,缩写为NIH),隶属于美国卫生与公众服务部,是美国联邦政府中首要的生物医学研究机构。2006年的资料显示,此机构花费美国全国