交叉验证

✍ dations ◷ 2025-02-23 19:41:25 #交叉验证
交叉验证,有时亦称循环估计 , 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目的,是用未用来给模型作训练的新数据,测试模型的性能,以便减少诸如过拟合和选择偏差等问题,并给出模型如何在一个独立的数据集上通用化(即,一个未知的数据集,如实际问题中的数据)。交叉验证的理论是由Seymour Geisser(英语:Seymour Geisser)所开始的。它对于防范根据数据建议的测试假设是非常重要的,特别是当后续的样本是危险、成本过高或科学上不适合时去搜集。假设有个未知模型具有一个或多个待定的参数,且有一个数据集能够反映该模型的特征属性(训练集)。适应的过程是对模型的参数进行调整,以使模型尽可能反映训练集的特征。如果从同一个训练样本中选择独立的样本作为验证集合,当模型因训练集过小或参数不合适而产生过拟合时,验证集的测试予以反映。 交叉验证是一种预测模型拟合性能的方法。常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。 随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。 一般来说,少于原本样本三分之一的数据被选做验证数据。k折交叉验证(英语:k-fold cross-validation),将训练集分割成k个子样本,一个单独的子样本被保留作为验证模型的数据,其他k − 1个样本用来训练。交叉验证重复k次,每个子样本验证一次,平均k次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。正如名称所建议,留一验证(英语:leave-one-out cross-validation, LOOCV)意指只使用原本样本中的一项来当做验证资料,而剩余的则留下来当做训练资料。这个步骤一直持续到每个样本都被当做一次验证资料。 事实上,这等同于k折交叉验证,其中k为原本样本个数。 在某些情况下是存在有效率的算法,如使用kernel regression(英语:kernel regression) 和吉洪诺夫正则化。可以计算估计误差。常见的误差衡量标准是均方差和方根均方差, 分别为交叉验证的方差和标准差。

相关

  • 腺苷脱氨酶检测1M7M, 3IAR· adenosine deaminase activity · adenosine deaminase activity · adenosine deaminase activity · protein binding · zinc ion binding · zinc io
  • 1954年-1968年非裔美国人白人优越主义非裔美国人民权运动(英文:Civil rights movement),是美国民权运动的一部分,是非裔美国人为争取与白人同等的地位而发起的群众性斗争运动,乃是经由非暴力的
  • 5-甲氧基二甲基色胺5-甲氧基二甲基色胺,二甲基色胺衍生物,一种色胺类致幻剂。存在于很多植物和蟾蜍中。1936年首次合成。
  • 偏好偏好是实际潜藏在人们内心的一种情感和倾向,它是非直观的,引起偏好的感性因素多于理性因素。偏好有明显的个体差异,也呈现出群体特征。在微观经济学价值理论中,偏好是价值上相对
  • 联邦直辖市联邦直辖市是俄罗斯的联邦主体的一种。俄罗斯联邦到2014年为止共分为85个联邦主体,其中三个是联邦直辖市。但三个直辖市中的塞瓦斯托波尔市未被国际普遍承认为俄罗斯领土。
  • 最大行政区一级行政区是指直接受国家直辖、或独立政权管辖的行政区划,属于相对概念。在汉语环境中,直属中央政府管辖之行政区称为“省级行政区”(或“国家一级行政区”)。而由多个国家合并
  • 凝华凝华(英语:deposition)是指一种物质从气态不经过液态直接转化为固态的过程,是物质在温度和气压低于三相点的时候发生的物态变化。凝华是放热反应。常见的例子有结霜。与凝华相反
  • 发电机发电机是把动能或及其它形式的能量转化成电能的装置。一般的发电机是通过原动机先将各类一次能源蕴藏的能量转换为机械能,然后通过发电机转换为电能,经输电、配电网络送往各种
  • 七将攻忒拜《七将攻忒拜》,或译为七雄攻忒拜,是古希腊剧作家埃斯库罗斯的悲剧作品,故事讲述了忒拜王子争夺王位自相残杀而死的故事。稍晚的欧里庇得斯也就相同的题材作了一部《腓尼基妇女
  • 米尔则亚耶夫沙夫卡特·米罗莫诺维奇·米尔济约耶夫(俄语:Шавкат Миромонович Мирзиёев;1957年7月24日-)是一位乌兹别克斯坦政治人物,现任乌兹别克斯坦总统。1996年