交叉验证

✍ dations ◷ 2025-06-07 02:07:40 #交叉验证
交叉验证,有时亦称循环估计 , 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目的,是用未用来给模型作训练的新数据,测试模型的性能,以便减少诸如过拟合和选择偏差等问题,并给出模型如何在一个独立的数据集上通用化(即,一个未知的数据集,如实际问题中的数据)。交叉验证的理论是由Seymour Geisser(英语:Seymour Geisser)所开始的。它对于防范根据数据建议的测试假设是非常重要的,特别是当后续的样本是危险、成本过高或科学上不适合时去搜集。假设有个未知模型具有一个或多个待定的参数,且有一个数据集能够反映该模型的特征属性(训练集)。适应的过程是对模型的参数进行调整,以使模型尽可能反映训练集的特征。如果从同一个训练样本中选择独立的样本作为验证集合,当模型因训练集过小或参数不合适而产生过拟合时,验证集的测试予以反映。 交叉验证是一种预测模型拟合性能的方法。常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。 随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。 一般来说,少于原本样本三分之一的数据被选做验证数据。k折交叉验证(英语:k-fold cross-validation),将训练集分割成k个子样本,一个单独的子样本被保留作为验证模型的数据,其他k − 1个样本用来训练。交叉验证重复k次,每个子样本验证一次,平均k次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。正如名称所建议,留一验证(英语:leave-one-out cross-validation, LOOCV)意指只使用原本样本中的一项来当做验证资料,而剩余的则留下来当做训练资料。这个步骤一直持续到每个样本都被当做一次验证资料。 事实上,这等同于k折交叉验证,其中k为原本样本个数。 在某些情况下是存在有效率的算法,如使用kernel regression(英语:kernel regression) 和吉洪诺夫正则化。可以计算估计误差。常见的误差衡量标准是均方差和方根均方差, 分别为交叉验证的方差和标准差。

相关

  • 补体系统补体系统(英语:complement system)由一系列的蛋白质组成,属先天免疫系统的一部分。补体系统透过一连串的酵素(酶)相互切割启动,最终在目标微生物上形成类似孔洞的膜攻击复合物(Memb
  • 犹太教灯台犹太教灯台(希伯来语:.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","Keter Aram Tsova","Taam
  • 农场痘农场痘(Farmyard pox)为一群与副牛痘病毒(英语:parapoxvirus)相关的人畜共通性的传染性皮肤病:393。包含在此范畴内的疾病包含:393:Template:Cutaneous-infection-stub
  • 大西洋-刚果语族大西洋-刚果语族是尼日尔-刚果语系当中,使用者最多的一个语族。在《Ethnologue》中尼日尔-刚果语系的1514种语言中,有1418种语言均归大西洋-刚果语族。大西洋-刚果语族有与尼
  • 圣母百花大教堂圣母百花圣殿,又称花之圣母大教堂(意大利语:Cattedrale di Santa Maria del Fiore)或佛罗伦斯主教座堂。是位于意大利佛罗伦斯的一座教堂,属哥特式风格的主教座堂。始建于1296年,
  • 二甲基硫二甲基硫醚,是最简单的硫醚化合物。结构、性质与二甲基醚类似。常温下为无色挥发性液态。有着如海鲜般特殊气味物质。在自然界中,常由蛋白质的分解产生。这也是海鲜腥味的来源
  • 纽约证券交易所纽约证券交易所(英语:New York Stock Exchange,英文缩写:NYSE,有时简称纽约证交所或纽交所)与泛欧股票交易所合并前是世界上第二大证券交易所。交易时间为除周末和例行休市日的9:3
  • 蒙特赛拉特·卡芭叶玛丽亚·德蒙特塞拉特·维维安娜·康塞普西翁·卡芭叶-富尔克(加泰罗尼亚语:María de Montserrat Viviana Concepción Caballé i Folc,1933年4月12日-2018年10月6日),常简称蒙
  • L型钙通道L-型钙通道(英文:L-type calcium channel)是一种电压依赖性钙通道的类型钙通道。“L”为“long-lasting”的首字母,表示激活状态的时间持久。和其他同类钙通道一样,α1亚基是决定
  • 气体常数气体常数(又称理想气体常数、普适气体常数,符号为 R {\displaystyle R} )是一个在物态方程中连系各个热力学函数的物理常数。理想