首页 >
交叉验证
✍ dations ◷ 2025-09-13 20:46:43 #交叉验证
交叉验证,有时亦称循环估计 ,
是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目的,是用未用来给模型作训练的新数据,测试模型的性能,以便减少诸如过拟合和选择偏差等问题,并给出模型如何在一个独立的数据集上通用化(即,一个未知的数据集,如实际问题中的数据)。交叉验证的理论是由Seymour Geisser(英语:Seymour Geisser)所开始的。它对于防范根据数据建议的测试假设是非常重要的,特别是当后续的样本是危险、成本过高或科学上不适合时去搜集。假设有个未知模型具有一个或多个待定的参数,且有一个数据集能够反映该模型的特征属性(训练集)。适应的过程是对模型的参数进行调整,以使模型尽可能反映训练集的特征。如果从同一个训练样本中选择独立的样本作为验证集合,当模型因训练集过小或参数不合适而产生过拟合时,验证集的测试予以反映。
交叉验证是一种预测模型拟合性能的方法。常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。
随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。
一般来说,少于原本样本三分之一的数据被选做验证数据。k折交叉验证(英语:k-fold cross-validation),将训练集分割成k个子样本,一个单独的子样本被保留作为验证模型的数据,其他k − 1个样本用来训练。交叉验证重复k次,每个子样本验证一次,平均k次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。正如名称所建议,留一验证(英语:leave-one-out cross-validation, LOOCV)意指只使用原本样本中的一项来当做验证资料,而剩余的则留下来当做训练资料。这个步骤一直持续到每个样本都被当做一次验证资料。
事实上,这等同于k折交叉验证,其中k为原本样本个数。
在某些情况下是存在有效率的算法,如使用kernel regression(英语:kernel regression) 和吉洪诺夫正则化。可以计算估计误差。常见的误差衡量标准是均方差和方根均方差,
分别为交叉验证的方差和标准差。
相关
- 青霉菌青霉菌是最常见的真菌(半知菌)中的一种。肉眼可见其孢子的颜色为蓝绿色,因而得名。但是并非所有青霉属的霉菌都为蓝绿色,也有白色或者绿色。在显微镜下,可见其呈笔一样形状的笔状
- 东英县东英县(越南语:Huyện Đông Anh/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKSCS-UNI-H",
- 线形文字A线形文字A是一种古代克里特岛上使用的未解读文字。它的破解是考古学上的“圣杯”。它的一种关联文字,线形文字B于1950年被迈克尔·文特里斯破译,证明其为希腊语的一种古代书写
- 原发纵膈大B细胞淋巴瘤原发纵隔大B细胞淋巴瘤,简称 PMBL,是一种发生在纵膈的淋巴瘤,主要影响年轻的成年人。它是弥漫大B细胞淋巴瘤的一个子类型,但通常预后显著较好。幼淋巴细胞(幼T淋巴细胞白血病)
- 氨甲环酸传明酸(tranexamic acid (TXA) 或 transamin,又称氨甲环酸)是一种人工合成的氨基酸,其他名称有断血炎、止血环酸、凝血酸等,具有止血抗炎的药理效果,本作为凝血剂用途,有针剂跟口服
- 广播广播是指利用电子通信技术发送声音、影像、影片等信息内容给广大公众的行为。在传播学上,广播的受众不单是听众,也有观众。例如电视台、电台、商场、学校体操场、车站大堂、巴
- 三色旗三色旗是由三种颜色组成的旗帜,是三条旗的一种,多由水平或垂直的三个颜色条组成,中间可能加上某种图案。很多国家的国旗都采用三色旗的形式,现在仍在使用的最早的三色旗是荷兰国
- 记忆B细胞记忆B细胞是在初次免疫反应后,产生IgM抗体的B细胞转为产生IgG的一种B细胞。在一个抗原与一个从未被此抗原刺激过的B细胞接触时,将激活初次免疫,B细胞将大量增值,其中多数分化为
- 烯胺烯胺(英文:Enamine)是醛或酮与二级胺失水缩合形成的一类不饱和化合物,可看作含氮的烯醇,通式为R2C=CR-NR2,见右图。若氮上的两个取代基中,有一个为氢,则形成的烯胺与亚胺互为互变异
- 颅骨切开术开颅手术,亦称穿颅术,是颅骨外科手术的一种,指通过机械设备打开患者颅骨,从而进行一些非常规治疗,由于开颅手术的高风险性,例如医生的失误操作导致患者脑损伤,这个手术本身也备受争