交叉验证

✍ dations ◷ 2025-12-09 06:31:27 #交叉验证

交叉验证，有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目的，是用未用来给模型作训练的新数据，测试模型的性能，以便减少诸如过拟合和选择偏差等问题，并给出模型如何在一个独立的数据集上通用化（即，一个未知的数据集，如实际问题中的数据）。交叉验证的理论是由Seymour Geisser（英语：Seymour Geisser）所开始的。它对于防范根据数据建议的测试假设是非常重要的，特别是当后续的样本是危险、成本过高或科学上不适合时去搜集。假设有个未知模型具有一个或多个待定的参数，且有一个数据集能够反映该模型的特征属性（训练集）。适应的过程是对模型的参数进行调整，以使模型尽可能反映训练集的特征。如果从同一个训练样本中选择独立的样本作为验证集合，当模型因训练集过小或参数不合适而产生过拟合时，验证集的测试予以反映。交叉验证是一种预测模型拟合性能的方法。常识来说，Holdout 验证并非一种交叉验证，因为数据并没有交叉使用。随机从最初的样本中选出部分，形成交叉验证数据，而剩余的就当做训练数据。一般来说，少于原本样本三分之一的数据被选做验证数据。k折交叉验证（英语：k-fold cross-validation），将训练集分割成k个子样本，一个单独的子样本被保留作为验证模型的数据，其他k − 1个样本用来训练。交叉验证重复k次，每个子样本验证一次，平均k次的结果或者使用其它结合方式，最终得到一个单一估测。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，10次交叉验证是最常用的。正如名称所建议，留一验证（英语：leave-one-out cross-validation, LOOCV）意指只使用原本样本中的一项来当做验证资料，而剩余的则留下来当做训练资料。这个步骤一直持续到每个样本都被当做一次验证资料。事实上，这等同于k折交叉验证，其中k为原本样本个数。在某些情况下是存在有效率的算法，如使用kernel regression（英语：kernel regression）和吉洪诺夫正则化。可以计算估计误差。常见的误差衡量标准是均方差和方根均方差，分别为交叉验证的方差和标准差。

相关

超重超重的定义通常是比标准身形有更多的身体脂肪。肥胖是常见的疾病，特别是在粮食供应充足，且民众生活方式流于久坐不立的地方。美国成年人口中，高达64％被认为超重或肥胖，而且这一比
君士坦丁赠礼君士坦丁献土（拉丁语：Donatio Constantini），是一份伪造的罗马皇帝法令，内容是公元315年3月30日，罗马皇帝君士坦丁大帝签署谕令，将罗马一带的土地赠送给教宗。一般认为这份文件于8世
辣薄荷M. piperita (L.) Huds. M. balsamea Willd.辣薄荷（学名：Mentha × piperita，又名胡椒薄荷，英语：Peppermint）唇形科年生草本植物，是一种被广泛种植的混种薄荷，原产于欧洲，可用于食物
德国航空航天中心德国航空航天中心（德语：Deutsches Zentrum für Luft- und Raumfahrt e.V.，缩写：DLR）是德国的国家级航天、能源与交通运输研究机构，总部设在科隆，并且设有多座分支机构。德国航空航
秦国秦国是春秋战国时期诸侯国，嬴姓，赵氏。《史记•秦本纪》据为秦人所自述历史。据被盗掘后抢救回来的清华简《系年》的第三章所载，周初三监之乱平定后，蜚廉“东逃于商奄国。成王伐
乔治六世乔治六世（英语：George VI，1895年12月14日－1952年2月6日），原名阿尔伯特·弗雷德里克·亚瑟·乔治（英语：Albert Frederick Arthur George），英国国王及众英联邦自治领皇帝，1936年12月12日
王　越王越（1932年－），中国雷达与通迅系统专家。1932年生于江苏丹阳。1950年入大连大学工学院电讯系学习，1952年院系调整至中国人民解放军通信学院雷达工程系，1956年毕业。1991年当选为中
安努安努（阿卡德语：
夹肌夹肌包括：后面：腰方肌 · 腰大肌／腰小肌 · 胯肌会阴浅隙（会阴浅横肌、球海绵体肌、坐骨海绵体肌）
东日耳曼语支东日耳曼语支是印欧语系日耳曼语族之下一个已经灭绝的语支，唯一已知文字的东日耳曼语支语言是哥德语。其他被认定同是东日耳曼语支的语言有汪达尔语、勃艮第日耳曼语、伦巴底