训练集、验证集和测试集

✍ dations ◷ 2025-02-23 07:27:42 #机器学习,计算机科学

机器学习的普遍任务就是从数据中学习和构建模型(该过程称之为训练),并且能够在将来遇到的数据上进行预测。用于构建最终模型的数据集通常有多个;在构建模型的不同阶段,通常有三种数据集:训练集、验证集和测试集。

首先,模型在训练集(英语:training dataset)上进行拟合。对于监督式学习,训练集是由用来拟合参数(例如人工神经网络中神经元之间链接的权重)的样本组成的集合。在实践中,训练集通常是由输入向量(标量)和输出向量(标量)组成的数据对。其中输出向量(标量)被称为目标或标签。在训练过程中,当前模型会对训练集中的每个样本进行预测,并将预测结果与目标进行比较。根据比较的结果,学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来,拟合得到的模型会在第二个数据集——验证集(英语:validation dataset)——上进行预测。在对模型的超参数(英语:Hyperparameter_(machine_learning))(例如神经网络中隐藏层的神经元数量)进行调整时,验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止:在验证集误差上升时(这是在训练集上过拟合的信号),停止训练。不过,在实践中,由于验证集误差在训练过程中会有起伏,这种做法有时不奏效。由此,人们发明了一些规则,用做判定过拟合更好的信号。

最后,测试集(英语:test dataset)可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如,没有被用在交叉验证当中),则它也被称之为预留集。


相关

  • 乙型交感神经接受体阻断剂β受体阻断药(英语:Beta blockers),又称Beta受体阻断药、β受体阻断剂、β受体阻滞剂、β受体拮抗剂或β阻断药、乙型阻断剂,是一类用来治疗心律不齐、防止心脏病发作后的二次心
  • 查尔斯·巴克拉查尔斯·巴克拉(英语:Charles Barkla,1877年6月27日-1944年10月26日),英国物理学家。任教于剑桥大学、爱丁堡大学的他,致力于基础物理研究。1918年,他因发现X射线的散射现象,获得了191
  • 昏睡病非洲人类锥虫病(法语:Trypanosomiasis africain; 英语:African trypanosomiasis)或称昏睡病、嗜睡病(英语:sleeping sickness),是一种由布氏锥虫(英语:Trypanosoma brucei)引起的寄生虫
  • 普什图族普什图人(Pax̌tānə),也译作帕坦人、普赫屯人,是居于南亚的一个民族,西方归入伊朗人(雅利安人)的一个分支。为阿富汗第一大民族和巴基斯坦第二大民族。普什图族部落和氏族的数量
  • 科尔多瓦省科尔多瓦省(西班牙语:Córdoba)为南美国家阿根廷二十三省之一,位于阿根廷中部,首府为科尔多瓦(Córdoba)。1自治市
  • 友达光电友达光电股份有限公司,原名为达碁科技(英语:AU Optronics Corporation),成立于1996年8月,2001年与联友光电合并后更名为友达光电,2006年再度并购广辉电子。经过两次合并,友达得以拥
  • 阿德莱·E·史蒂文森一世阿德莱·E·史蒂文森(英语:Adlai Ewing Stevenson,1835年10月23日-1914年6月14日),美国政治家,1893年至1897年第23届美国副总统,曾担任伊利诺伊州联邦众议员,后在克利夫兰总统政府中
  • 美国联邦政府独立行政机构美国联邦政府的独立机构是存在于联邦行政部门(由内阁部长领导)之外的那些机构。然而,大多数独立机构是行政分支的一部分,仅少数是立法或司法分支的一部分。通过由国会通过的单独
  • 苏珊·安东尼纪念币苏珊·安东尼一美元硬币(英语:Susan B. Anthony dollar)是1979至1981年间出产的一种1美元硬币,1981年时因公众反响不佳而停产,1999年又再度生产。这种硬币的诞生是为取代过于臃肿
  • 何姓何姓为中文姓氏之一,在《百家姓》中排第21位,是秦才出现的。何出自姬姓,根据《元和姓纂》记载:“周成王弟唐叔虞裔孙韩王安,为秦所灭,子孙分散,江淮间音,以韩为何,遂为何氏。”即周成