训练集、验证集和测试集

✍ dations ◷ 2025-09-10 03:08:32 #机器学习,计算机科学

机器学习的普遍任务就是从数据中学习和构建模型(该过程称之为训练),并且能够在将来遇到的数据上进行预测。用于构建最终模型的数据集通常有多个;在构建模型的不同阶段,通常有三种数据集:训练集、验证集和测试集。

首先,模型在训练集(英语:training dataset)上进行拟合。对于监督式学习,训练集是由用来拟合参数(例如人工神经网络中神经元之间链接的权重)的样本组成的集合。在实践中,训练集通常是由输入向量(标量)和输出向量(标量)组成的数据对。其中输出向量(标量)被称为目标或标签。在训练过程中,当前模型会对训练集中的每个样本进行预测,并将预测结果与目标进行比较。根据比较的结果,学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来,拟合得到的模型会在第二个数据集——验证集(英语:validation dataset)——上进行预测。在对模型的超参数(英语:Hyperparameter_(machine_learning))(例如神经网络中隐藏层的神经元数量)进行调整时,验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止:在验证集误差上升时(这是在训练集上过拟合的信号),停止训练。不过,在实践中,由于验证集误差在训练过程中会有起伏,这种做法有时不奏效。由此,人们发明了一些规则,用做判定过拟合更好的信号。

最后,测试集(英语:test dataset)可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如,没有被用在交叉验证当中),则它也被称之为预留集。


相关

  • 获得性免疫后天性免疫(英语:adaptive immunity)也称为获得性免疫、适应性免疫、特异性免疫、专一性防御,是一种经由与特定病原体接触后,产生能识别并针对特定病原体启动的免疫反应。和后天
  • 次氯酸钠次氯酸钠(sodium hypochlorite),化学式NaClO,是钠的次氯酸盐。次氯酸钠与二氧化碳反应产生的次氯酸是漂白剂有的成分。氯气溶于冷而且稀的氢氧化钠溶液产生次氯酸钠、氯化钠及水
  • 犹他州犹他州(英语:State of Utah)是美国西部的一个州。于1896年1月4日成为美国第45个州。犹他州是美国13大的州、人口排行33和人口密度倒数第10名的州。犹他州行政区划一共有29个县
  • 维他命B1Thiamin硫胺(英语:Thiamine),又称维生素B1、维他命B1,命名为“thio-vitamine”(含硫维生素)。分子式C12H17N4OS+。它是人体必需的13种维生素之一,是一种水溶性维生素,属于维生素B族,它
  • 肌肉细胞肌细胞也称为肌纤维,可以在肌肉组织中见到,这些细胞型态上属于长型且管状,肌肉细胞是从肌肉母细胞发育而来。经过肌肉生成(英语:Myogenesis)后肌细胞会特化成数种型态,包括骨骼肌、
  • 热膨胀热胀冷缩是指物体受热时会膨胀,遇冷时会收缩的特性。由于物体内的粒子(原子)运动会随温度改变,当温度上升时,粒子的振动幅度加大,令物体膨胀;但当温度下降时,粒子的振动幅度便会减少
  • 双折射双折射现象,光学现象的一种,可以用光的横波性质来解释。当光照射到各向异性晶体(单轴晶体,如方解石、石英、红宝石等)时,发生两个不同方向的折射;对于单光材料来说,当光偏振方向垂直
  • 加拿大保守党加拿大保守党(英语:Conservative Party of Canada;法语:Parti conservateur du Canada)是一个中间偏右的加拿大政党,于2003年12月7日由加拿大联盟及加拿大进步保守党合并而成。自
  • 质量层化质量层化是天文学中被引力束缚系统中的一种动力学过程,例如星团或星系团,倾向于大质量的天体移动到中心,而较轻的天体分布在外层。当星团中的两个物体靠近时,会彼此交换能量和动
  • 吉兰丹河吉兰丹河(马来语:Sungai Kelantan;英语:Kelantan River)是马来西亚主要河流之一,为马来西亚半岛东北部的主要河流,流域坐落在马来西亚吉兰丹州境内。发源自蒂蒂旺沙山脉上的乌鲁士