训练集、验证集和测试集

✍ dations ◷ 2025-10-24 18:55:32 #机器学习,计算机科学

机器学习的普遍任务就是从数据中学习和构建模型(该过程称之为训练),并且能够在将来遇到的数据上进行预测。用于构建最终模型的数据集通常有多个;在构建模型的不同阶段,通常有三种数据集:训练集、验证集和测试集。

首先,模型在训练集(英语:training dataset)上进行拟合。对于监督式学习,训练集是由用来拟合参数(例如人工神经网络中神经元之间链接的权重)的样本组成的集合。在实践中,训练集通常是由输入向量(标量)和输出向量(标量)组成的数据对。其中输出向量(标量)被称为目标或标签。在训练过程中,当前模型会对训练集中的每个样本进行预测,并将预测结果与目标进行比较。根据比较的结果,学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来,拟合得到的模型会在第二个数据集——验证集(英语:validation dataset)——上进行预测。在对模型的超参数(英语:Hyperparameter_(machine_learning))(例如神经网络中隐藏层的神经元数量)进行调整时,验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止:在验证集误差上升时(这是在训练集上过拟合的信号),停止训练。不过,在实践中,由于验证集误差在训练过程中会有起伏,这种做法有时不奏效。由此,人们发明了一些规则,用做判定过拟合更好的信号。

最后,测试集(英语:test dataset)可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如,没有被用在交叉验证当中),则它也被称之为预留集。


相关

  • CXCL9n/an/an/an/an/an/an/an/an/an/aCXCL9(英语:Chemokine (C-X-C motif) ligand 9)是一小分子的细胞因子属于CXC趋化因子家族,又被称作“干扰素伽玛诱导的单核细胞因子”(Monokine i
  • 豪兰岛豪兰岛(英语:Howland Island,/ˈhaʊlənd/)是一个无人居住的珊瑚礁,位于赤道之上(准确位置:北纬0°48′,西经176°38′)的中太平洋区域,大约距离美国夏威夷檀香山市3,100公里(1,675海
  • in situIn situ是一个拉丁文词组,字面上的意思是指“在原本位置”,于不同领域中有不同用法,包括航天学、考古学、建筑学、生物学、法律、文学、天文学、化学、计算机科学、地球科学、
  • 单板纲原口动物 Protostomia见内文单板纲(学名:Monoplacophora),又名新碟贝纲,是软体动物门的一个多系群纲,在深海的底层生活。单板纲大多数是化石种类,主要产于早古生代海相地层中。现存
  • 波斯波利斯坐标:29°56′04″N 52°53′29″E / 29.93444°N 52.89139°E / 29.93444; 52.89139波斯波利斯(古波斯语:
  • 新奥尔良有轨电车新奥尔良有轨电车(英语:Streetcars in New Orleans)是美国路易斯安那州新奥尔良市的有轨电车,由新奥尔良地区交通局运营。该系统有三条线路,总长19千米(11.81英里) ,日客流量1.9万人
  • 蒙帕拿斯公墓蒙帕纳斯公墓(法语:Cimetière du Montparnasse)是与拉雪兹神父公墓、蒙马特公墓并列的巴黎三大公墓之一,位于圣日耳曼德佩广场南部的蒙帕纳斯区,属于巴黎十四区。蒙帕纳斯最初的
  • 鹤山区鹤山区是中华人民共和国河南省鹤壁市的一个市辖区。面积159平方公里,2002年人口13万。目前下辖:中山路街道、九矿广场街道、新华街街道、中山北路街道和鹤山街街道;鹤壁集镇和
  • 1-氯丁烷1-氯丁烷,分子式C4H9Cl。无色挥发性易燃液体,有类似氯仿的气味。几乎不溶于水,与乙醇和乙醚混溶。正丁醇与浓盐酸在氯化锌催化下进行作用,产生1-氯丁烷。反应后将产物洗涤、干燥
  • 南充西路话南充西路话,又称为西路口音,是中国四川省南充市嘉陵区西部龙蟠镇、桃园乡、三会镇、积善乡、七宝寺镇、集凤镇、龙泉镇等乡镇一带使用的语言,位于四川方言中保留入声的岷江小片