训练集、验证集和测试集

✍ dations ◷ 2025-12-04 22:16:42 #机器学习,计算机科学

机器学习的普遍任务就是从数据中学习和构建模型（该过程称之为训练），并且能够在将来遇到的数据上进行预测。用于构建最终模型的数据集通常有多个；在构建模型的不同阶段，通常有三种数据集：训练集、验证集和测试集。

首先，模型在训练集（英语：training dataset）上进行拟合。对于监督式学习，训练集是由用来拟合参数（例如人工神经网络中神经元之间链接的权重）的样本组成的集合。在实践中，训练集通常是由输入向量（标量）和输出向量（标量）组成的数据对。其中输出向量（标量）被称为目标或标签。在训练过程中，当前模型会对训练集中的每个样本进行预测，并将预测结果与目标进行比较。根据比较的结果，学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来，拟合得到的模型会在第二个数据集——验证集（英语：validation dataset）——上进行预测。在对模型的超参数（英语：Hyperparameter_(machine_learning)）（例如神经网络中隐藏层的神经元数量）进行调整时，验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止：在验证集误差上升时（这是在训练集上过拟合的信号），停止训练。不过，在实践中，由于验证集误差在训练过程中会有起伏，这种做法有时不奏效。由此，人们发明了一些规则，用做判定过拟合更好的信号。

最后，测试集（英语：test dataset）可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到（例如，没有被用在交叉验证当中），则它也被称之为预留集。

相关

埃德温·哈勃埃德温·鲍威尔·哈勃（英语：Edwin Powell Hubble，1889年11月20日－1953年9月28日），美国著名的天文学家。哈勃证实了银河系外其他星系的存在，并发现了大多数星系都存在红移的现象，建立
安那托利亚安纳托利亚（土耳其语：Anadolu；希腊语：ανατολή；帝国亚拉姆语：ܐܢܛܘܠܝܐ‎；亚美尼亚语：Անատոլիա），亦作安纳托力亚、安那托利亚，又名小亚细亚（土耳其语：Küçük Asya；英
霍亨索伦王朝德国和普鲁士：威廉二世（1888–1918）罗马尼亚：德国和普鲁士：格奥尔格·弗里德里希亲王（1994–）霍亨索伦-锡格马林根：卡尔·弗里德里希亲王（2010–）罗马尼亚：霍亨索伦王朝（Hohenzollern
Greenwood Press格林伍德出版集团（ABC-CLIO/Greenwood，Greenwood Publishing Group，简称GPG）是ABC-CLIO（英语：ABC-CLIO）旗下的学术与教育（中学至大学）出版商。前身是1967年的成立Greenwood Press（格林
过渡区过渡区是太阳大气层内介于色球和日冕中间的一区，只能在太空中使用紫外线望远镜看见。它的重要性在于一些未曾被说明，但在太阳大气物理中是很重要的转换：氦的游离是很重要的，因为
国际汇率在经济学上，汇率（英语：exchange rate，foreign-exchange rate，forex rate，FX rate，或Agio）定义为两国货币之间兑换的比例。通常会将某一国的货币设为基准，以此换算金额价值他国几元的
抑制控制试验异常心理学行为遗传学生物心理学心理药物学认知心理学比较心理学跨文化心理学文化心理学差异心理学（英语：Differential psychology）发展心理学演化心理学实验心理学
波多马克河波托马克河（英语：Potomac River），是美国东部的主要河流之一，全美第21大河流。波托马克河有两个源头，北源发源于西弗吉尼亚州普雷斯顿县、格兰特县和塔克县交界处，南源发源于弗吉尼
苏联国土防空军国土防空军（俄语：Войска ПВО）是苏联总结第二次世界大战经验教训，于1948年组建的担负国土防空任务的军种。在苏联五大军种中排在战略火箭军与陆军之后。基层部队平时行
碎点魮碎点魮（学名：）为辐鳍鱼纲鲤形目鲤科魮属的其中一个种。该物种于1969年由Roland G. Bailey描述，分布于非洲三比西河中下游，体长可达3.2公分。维基物种中有关碎点魮的数据