交叉验证

✍ dations ◷ 2025-07-07 16:54:00 #交叉验证
交叉验证,有时亦称循环估计 , 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目的,是用未用来给模型作训练的新数据,测试模型的性能,以便减少诸如过拟合和选择偏差等问题,并给出模型如何在一个独立的数据集上通用化(即,一个未知的数据集,如实际问题中的数据)。交叉验证的理论是由Seymour Geisser(英语:Seymour Geisser)所开始的。它对于防范根据数据建议的测试假设是非常重要的,特别是当后续的样本是危险、成本过高或科学上不适合时去搜集。假设有个未知模型具有一个或多个待定的参数,且有一个数据集能够反映该模型的特征属性(训练集)。适应的过程是对模型的参数进行调整,以使模型尽可能反映训练集的特征。如果从同一个训练样本中选择独立的样本作为验证集合,当模型因训练集过小或参数不合适而产生过拟合时,验证集的测试予以反映。 交叉验证是一种预测模型拟合性能的方法。常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。 随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。 一般来说,少于原本样本三分之一的数据被选做验证数据。k折交叉验证(英语:k-fold cross-validation),将训练集分割成k个子样本,一个单独的子样本被保留作为验证模型的数据,其他k − 1个样本用来训练。交叉验证重复k次,每个子样本验证一次,平均k次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。正如名称所建议,留一验证(英语:leave-one-out cross-validation, LOOCV)意指只使用原本样本中的一项来当做验证资料,而剩余的则留下来当做训练资料。这个步骤一直持续到每个样本都被当做一次验证资料。 事实上,这等同于k折交叉验证,其中k为原本样本个数。 在某些情况下是存在有效率的算法,如使用kernel regression(英语:kernel regression) 和吉洪诺夫正则化。可以计算估计误差。常见的误差衡量标准是均方差和方根均方差, 分别为交叉验证的方差和标准差。

相关

  • 特异性免疫后天性免疫(英语:adaptive immunity)也称为获得性免疫、适应性免疫、特异性免疫、专一性防御,是一种经由与特定病原体接触后,产生能识别并针对特定病原体启动的免疫反应。和后天
  • 血色沉着病血色沉着病(Hemochromatosis),又名血色素沉着症、血铁沉积症或血色病是指:
  • 日本人日本人(日语:日本人/にほんじん/にっぽんじん Nihonjin / Nipponjin ?)是指拥有日本国籍者或日本列岛的各民族与族群。日本主体民族为大和民族,其他组成民族包括韩民族、满族、
  • 开放式关系开放式关系(英语:open relationship)是人际关系的一种,处在这种关系中的双方有保持伴侣关系的意愿,但又不受主流的单配偶制的限制。这意味着双方同意保持恋爱关系或伴侣关系,同时
  • 细胞色素c氧化酶细胞色素c氧化酶(英语:Cytochrome c oxidase)是一种氧化还原酶,通用名为“细胞色素-c氧化酶”,系统名称为“亚铁细胞色素-c:氧气氧化还原酶”(EC 1.9.3.1)。它是一种存在于细菌或线
  • 黑素细胞黑素细胞(melanocyte),又叫痣细胞(nevus cell),是一种动物细胞,带有黑色素或是其他类似的色素,极大多数情况下位于皮肤表皮的基底层(英语:Stratum basale)、眼睛的葡萄膜(虹膜后面的色素
  • 王粲王粲(177年-217年2月17日),字仲宣,山阳郡高平县(今山东省济宁市微山县)人。擅长辞赋,建安七子之一,被誉为“七子之冠冕”。汉献帝西迁的时候,王粲来到长安,去拜访名士蔡邕。当时蔡邕家
  • 少数民族少数民族,是实行主体民族与少数民族区别对待政策的国家的差别用语,是民族主义国家中主体民族以外的民族群体,人口比例占少数。少数民族可以是原住民族,也可以是外来民族,来源真实
  • CD59n/an/an/an/an/an/an/an/an/an/aCD59,亦称为“膜攻击复合物(MAC)抑制蛋白”(MAC-inhibitory protein, MAC-IP)、“膜反应性溶血抑制物”(membrane inhibitor of reactive lysis, M
  • 首字母缩略词首字母缩略字(英语:Acronym)是将相关词句的第一个字母缩写而组合成一个新字。 “首字母缩略字”又称为“头字语”。 而这个新字的发音则是依据这个新字书写的方式。例如“英语:l