首页 >
交叉验证
✍ dations ◷ 2025-08-02 12:50:01 #交叉验证
交叉验证,有时亦称循环估计 ,
是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目的,是用未用来给模型作训练的新数据,测试模型的性能,以便减少诸如过拟合和选择偏差等问题,并给出模型如何在一个独立的数据集上通用化(即,一个未知的数据集,如实际问题中的数据)。交叉验证的理论是由Seymour Geisser(英语:Seymour Geisser)所开始的。它对于防范根据数据建议的测试假设是非常重要的,特别是当后续的样本是危险、成本过高或科学上不适合时去搜集。假设有个未知模型具有一个或多个待定的参数,且有一个数据集能够反映该模型的特征属性(训练集)。适应的过程是对模型的参数进行调整,以使模型尽可能反映训练集的特征。如果从同一个训练样本中选择独立的样本作为验证集合,当模型因训练集过小或参数不合适而产生过拟合时,验证集的测试予以反映。
交叉验证是一种预测模型拟合性能的方法。常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。
随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。
一般来说,少于原本样本三分之一的数据被选做验证数据。k折交叉验证(英语:k-fold cross-validation),将训练集分割成k个子样本,一个单独的子样本被保留作为验证模型的数据,其他k − 1个样本用来训练。交叉验证重复k次,每个子样本验证一次,平均k次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。正如名称所建议,留一验证(英语:leave-one-out cross-validation, LOOCV)意指只使用原本样本中的一项来当做验证资料,而剩余的则留下来当做训练资料。这个步骤一直持续到每个样本都被当做一次验证资料。
事实上,这等同于k折交叉验证,其中k为原本样本个数。
在某些情况下是存在有效率的算法,如使用kernel regression(英语:kernel regression) 和吉洪诺夫正则化。可以计算估计误差。常见的误差衡量标准是均方差和方根均方差,
分别为交叉验证的方差和标准差。
相关
- 阿克苏姆人阿克苏姆(Kingdom of Aksum、መንግስቲ ኣኽሱም)是公元前或公元初在东北非洲的国家,首都为阿克苏姆城(今属埃塞俄比亚的提格雷省)。公元1世纪,一位古希腊商人写的《红海环航记》
- 瓦伦斯弗拉维斯·埃弗利乌斯·瓦伦斯(拉丁语:FLAVIVS IVLIVS VALENS PIVS FELIX AVGVSTVS,328年-378年8月9日),罗马帝国东部皇帝(364年至378年在位)。瓦伦斯直到360年左右方才加入罗马军队
- 伦敦数学学会伦敦数学学会(London Mathematical Society)是英格兰的主要数学组织。此学会创于1865年1月16日,首任主席由奥古斯都·德·摩根出任。其聚会最早在伦敦大学学院举行,但随后便迁至
- 亚伦·贝克亚伦·特姆金·贝克(英语:Aaron Temkin Beck,1921年7月18日-),美国精神病医生,同时也是宾夕法尼亚大学精神病学的名誉教授。他是认知疗法之父,他开创性的理论被广泛应用于临床治疗抑
- 鼻骨鼻骨(英语:nasal bone)是一对细小的长方形骨,在脸的中上部接合形成鼻梁的一部分,而鼻下面的较大部分是由软骨所组成。
- 内隐态度内隐态度(Implicit attitude)是个体对事物所持的积极或消极的认知、情感或反应,由不自觉的以往经验归因于以往某一确定经验所引起。认知心理学和社会心理学中常用的内隐态度的
- 超导态超导体(superconductor),指可以在特定温度以下,呈现电阻为零的导体。零电阻和完全抗磁性是超导体的两个重要特性。超导体电阻转变为零的温度,称为超导临界温度,据此超导材料可以分
- RNAiRNA干扰(RNA interference,缩写为RNAi)是指一种分子生物学上由双链RNA诱发的基因沉默现象,其机制是通过阻碍特定基因的转录或翻译来抑制基因表达。当细胞中导入与内源性mRNA编码
- 空难列表空难列表可以指:
- 纤维细胞纤维细胞(fibrocyte)是一种没有活性的间充质细胞,细胞显示出体积小的细胞质、数量有限的粗糙内质网,并且缺乏蛋白质合成的生化证据。此外,具有巨噬细胞的炎症特征和成纤维细胞的