训练集、验证集和测试集

✍ dations ◷ 2024-09-20 09:42:43 #机器学习,计算机科学

机器学习的普遍任务就是从数据中学习和构建模型(该过程称之为训练),并且能够在将来遇到的数据上进行预测。用于构建最终模型的数据集通常有多个;在构建模型的不同阶段,通常有三种数据集:训练集、验证集和测试集。

首先,模型在训练集(英语:training dataset)上进行拟合。对于监督式学习,训练集是由用来拟合参数(例如人工神经网络中神经元之间链接的权重)的样本组成的集合。在实践中,训练集通常是由输入向量(标量)和输出向量(标量)组成的数据对。其中输出向量(标量)被称为目标或标签。在训练过程中,当前模型会对训练集中的每个样本进行预测,并将预测结果与目标进行比较。根据比较的结果,学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来,拟合得到的模型会在第二个数据集——验证集(英语:validation dataset)——上进行预测。在对模型的超参数(英语:Hyperparameter_(machine_learning))(例如神经网络中隐藏层的神经元数量)进行调整时,验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止:在验证集误差上升时(这是在训练集上过拟合的信号),停止训练。不过,在实践中,由于验证集误差在训练过程中会有起伏,这种做法有时不奏效。由此,人们发明了一些规则,用做判定过拟合更好的信号。

最后,测试集(英语:test dataset)可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如,没有被用在交叉验证当中),则它也被称之为预留集。


相关

  • 农业社会农业社会为以农业为经济主导的社会。当人类的农业活动达一定规模,便渐渐进入农业社会,工业总产值与农业总产值,是一般区分农业社会及工业社会的方法。然而,农业社会中人与自然之
  • 留尼汪坐标:21°06′52″S 55°31′57″E / 21.11444°S 55.53250°E / -21.11444; 55.53250 留尼汪大区(法语:La Réunion),通称留尼汪,是一座印度洋西部马斯克林群岛中的火山岛。为法
  • 有机金属化学有机金属化学是有机化学和无机化学交叠的一门分支课程,研究含有金属(包括类金属)和碳原子键结的有机金属化合物,其化学反应、合成等各种问题。其中的化学反应,包含了许多催化性质
  • 蓝光蓝光是一个专有词语:是指光谱中蓝色段的其中一段,波长范围约在 400-500 奈米左右,蓝光是波长较短能量较强的可见光,有实验结果显示,该段光谱的光线对人类眼睛的眼底细胞相比较上
  • 有机食品有机食品指的是由符合有机农场标准的机构生产的食品。在世界范围内,有机农场标准不一,但一般来说,有机农场致力于对资源的循环再利用,追求生态平衡,以及对生物多样性的保护。在有
  • 甲基叔丁基醚甲基第三丁基醚,英文缩写为MTBE(methyl tert-butyl ether),是一种无色透明、粘度低的可挥发性液体,具有特殊气味,含氧量为18.2%的有机醚类。它的蒸汽比空气重,可沿地面扩散,与强氧化
  • 梅蒂人梅蒂人(法语:Métis)是加拿大的原住民的一个族群,是原住民与早期法裔加拿大人的混血儿。根据加拿大的《印第安法》,梅蒂人是三种受保护的原住民之一。m do e k j mo mi o
  • 抹香鲸抹香鲸(学名:Physeter macrocephalus)又称巨抹香鲸、卡切拉特鲸,是世界上最大的齿鲸。在分类上,抹香鲸与侏儒抹香鲸与小抹香鲸是亲缘较相近,身体构造相似而在体型上有大小的差异。
  • CVL-28 卡伯特号卡伯特号航空母舰(CVL-28)是一艘隶属于美国海军的航空母舰,为独立级航空母舰的七号舰。她是美军第二艘以卡伯特为名的军舰,纪念探险家乔瓦尼·卡波托。在1967年至1989年期间,卡伯
  • 昭慈皇后昭慈皇后(?-1246年)名脱列哥那(蒙古语:.mw-parser-output .font-mong{font-family:"Menk Hawang Tig","Menk Qagan Tig","Menk Garqag Tig","Menk Har_a Tig","Menk Scnin Tig","