交叉验证

✍ dations ◷ 2024-12-22 19:33:35 #交叉验证
交叉验证,有时亦称循环估计 , 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目的,是用未用来给模型作训练的新数据,测试模型的性能,以便减少诸如过拟合和选择偏差等问题,并给出模型如何在一个独立的数据集上通用化(即,一个未知的数据集,如实际问题中的数据)。交叉验证的理论是由Seymour Geisser(英语:Seymour Geisser)所开始的。它对于防范根据数据建议的测试假设是非常重要的,特别是当后续的样本是危险、成本过高或科学上不适合时去搜集。假设有个未知模型具有一个或多个待定的参数,且有一个数据集能够反映该模型的特征属性(训练集)。适应的过程是对模型的参数进行调整,以使模型尽可能反映训练集的特征。如果从同一个训练样本中选择独立的样本作为验证集合,当模型因训练集过小或参数不合适而产生过拟合时,验证集的测试予以反映。 交叉验证是一种预测模型拟合性能的方法。常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。 随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。 一般来说,少于原本样本三分之一的数据被选做验证数据。k折交叉验证(英语:k-fold cross-validation),将训练集分割成k个子样本,一个单独的子样本被保留作为验证模型的数据,其他k − 1个样本用来训练。交叉验证重复k次,每个子样本验证一次,平均k次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。正如名称所建议,留一验证(英语:leave-one-out cross-validation, LOOCV)意指只使用原本样本中的一项来当做验证资料,而剩余的则留下来当做训练资料。这个步骤一直持续到每个样本都被当做一次验证资料。 事实上,这等同于k折交叉验证,其中k为原本样本个数。 在某些情况下是存在有效率的算法,如使用kernel regression(英语:kernel regression) 和吉洪诺夫正则化。可以计算估计误差。常见的误差衡量标准是均方差和方根均方差, 分别为交叉验证的方差和标准差。

相关

  • 全字母句包含有字母表中所有字母并且言之成义的句子称为全字母句(英语:pangram或holoalphabetic sentence,希腊语:pan gramma(意为“每一个字母”))。全字母句被用于显示字体和测试打字机。
  • 精子发生精子发生(英语:spermatogenesis)是有性生殖的雄性动物的睾丸中,生殖细胞从精原细胞一直发育到成熟的精子的过程。这一过程始于精原干细胞的有丝分裂,邻近生精小管的基底膜。繁殖
  • 白兔兔,又称兔子,在汉语中是哺乳类兔形目兔科(学名:Leporidae)物种的总称。正在吃牧草的兔子一只野兔一个宠物兔一只睡觉的家兔一个好奇的棉尾兔两个兔子兔子剪影兔子雕塑作品拟人化
  • 索氏提取器索氏提取器(英语:Soxhlet extractor)是一种在1879年由Franz von Soxhlet(英语:Franz von Soxhlet)发明的实验仪器。它最初的设计是为了从固体中提取脂类化合物,但是,索氏提取器不仅
  • 星座计划星座计划(Project Constellation)是美国国家航空航天局开发的一项已中止的载人航天太空探索计划。2010年1月28日,美联社报导,美国总统奥巴马已经实际上搁置了重返月球计划。 同
  • 原子能电池原子能电池(又称核电池,氚电池或放射性同位素发电装置)是指那些使用放射性同位素衰变时产生之能量来产生电力的装置。这会使人误解成核反应堆,但实际上这种电池不是利用链式反应
  • 精液分析精液检查从多个方面评估男性精液以及其中精子的情况。通常用于检验男性的生育能力,可能是分析夫妇不孕的原因,或者验证输精管结扎术是否成功。精液检查有不同的量测方式,有些只
  • 扁头泥蜂扁头泥蜂(学名:Ampulex compressa)属膜翅目细腰亚目长背泥蜂科,以控制蟑螂繁殖而知名。扁头泥蜂身黑而长,表面带有绿宝石般的金属光泽,体型不大。主要分布于南亚、非洲、太平洋三
  • 脑容量脑容量是脊椎动物的颅骨内腔容量大小。早期人科:2003年西安大略大学的研究显示,东亚人的平均脑容量为1383立方厘米,欧洲白人的平均脑容量为1371立方厘米,非洲黑人的平均脑容量
  • 氮化硅氮化硅是由硅元素和氮元素构成的化合物。在氮气气氛下,将单质硅的粉末加热到1300-1400°C之间,硅粉末样品的重量随着硅单质与氮气的反应递增。在没有铁催化剂的情况下,约7个小