训练集、验证集和测试集

✍ dations ◷ 2025-12-04 22:16:42 #机器学习,计算机科学

机器学习的普遍任务就是从数据中学习和构建模型(该过程称之为训练),并且能够在将来遇到的数据上进行预测。用于构建最终模型的数据集通常有多个;在构建模型的不同阶段,通常有三种数据集:训练集、验证集和测试集。

首先,模型在训练集(英语:training dataset)上进行拟合。对于监督式学习,训练集是由用来拟合参数(例如人工神经网络中神经元之间链接的权重)的样本组成的集合。在实践中,训练集通常是由输入向量(标量)和输出向量(标量)组成的数据对。其中输出向量(标量)被称为目标或标签。在训练过程中,当前模型会对训练集中的每个样本进行预测,并将预测结果与目标进行比较。根据比较的结果,学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来,拟合得到的模型会在第二个数据集——验证集(英语:validation dataset)——上进行预测。在对模型的超参数(英语:Hyperparameter_(machine_learning))(例如神经网络中隐藏层的神经元数量)进行调整时,验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止:在验证集误差上升时(这是在训练集上过拟合的信号),停止训练。不过,在实践中,由于验证集误差在训练过程中会有起伏,这种做法有时不奏效。由此,人们发明了一些规则,用做判定过拟合更好的信号。

最后,测试集(英语:test dataset)可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如,没有被用在交叉验证当中),则它也被称之为预留集。


相关

  • 埃德温·哈勃埃德温·鲍威尔·哈勃(英语:Edwin Powell Hubble,1889年11月20日-1953年9月28日),美国著名的天文学家。哈勃证实了银河系外其他星系的存在,并发现了大多数星系都存在红移的现象,建立
  • 安那托利亚安纳托利亚(土耳其语:Anadolu;希腊语:ανατολή;帝国亚拉姆语:ܐܢܛܘܠܝܐ‎;亚美尼亚语:Անատոլիա),亦作安纳托力亚、安那托利亚,又名小亚细亚(土耳其语:Küçük Asya;英
  • 霍亨索伦王朝德国和普鲁士:威廉二世(1888–1918)罗马尼亚:德国和普鲁士:格奥尔格·弗里德里希亲王(1994–) 霍亨索伦-锡格马林根:卡尔·弗里德里希亲王(2010–) 罗马尼亚:霍亨索伦王朝(Hohenzollern
  • Greenwood Press格林伍德出版集团(ABC-CLIO/Greenwood,Greenwood Publishing Group,简称GPG)是ABC-CLIO(英语:ABC-CLIO)旗下的学术与教育(中学至大学)出版商。前身是1967年的成立Greenwood Press(格林
  • 过渡区过渡区是太阳大气层内介于色球和日冕中间的一区,只能在太空中使用紫外线望远镜看见。它的重要性在于一些未曾被说明,但在太阳大气物理中是很重要的转换:氦的游离是很重要的,因为
  • 国际汇率在经济学上,汇率(英语:exchange rate,foreign-exchange rate,forex rate,FX rate,或Agio)定义为两国货币之间兑换的比例。通常会将某一国的货币设为基准,以此换算金额价值他国几元的
  • 抑制控制试验异常心理学 行为遗传学 生物心理学 心理药物学 认知心理学 比较心理学 跨文化心理学 文化心理学 差异心理学(英语:Differential psychology) 发展心理学 演化心理学 实验心理学
  • 波多马克河波托马克河(英语:Potomac River),是美国东部的主要河流之一,全美第21大河流。波托马克河有两个源头,北源发源于西弗吉尼亚州普雷斯顿县、格兰特县和塔克县交界处,南源发源于弗吉尼
  • 苏联国土防空军国土防空军(俄语:Войска ПВО)是苏联总结第二次世界大战经验教训,于1948年组建的担负国土防空任务的军种。在苏联五大军种中排在战略火箭军与陆军之后。基层部队平时行
  • 碎点魮碎点魮(学名:)为辐鳍鱼纲鲤形目鲤科魮属的其中一个种。该物种于1969年由Roland G. Bailey描述,分布于非洲三比西河中下游,体长可达3.2公分。 维基物种中有关碎点魮的数据