训练集、验证集和测试集

✍ dations ◷ 2025-08-13 21:16:53 #机器学习,计算机科学

机器学习的普遍任务就是从数据中学习和构建模型(该过程称之为训练),并且能够在将来遇到的数据上进行预测。用于构建最终模型的数据集通常有多个;在构建模型的不同阶段,通常有三种数据集:训练集、验证集和测试集。

首先,模型在训练集(英语:training dataset)上进行拟合。对于监督式学习,训练集是由用来拟合参数(例如人工神经网络中神经元之间链接的权重)的样本组成的集合。在实践中,训练集通常是由输入向量(标量)和输出向量(标量)组成的数据对。其中输出向量(标量)被称为目标或标签。在训练过程中,当前模型会对训练集中的每个样本进行预测,并将预测结果与目标进行比较。根据比较的结果,学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来,拟合得到的模型会在第二个数据集——验证集(英语:validation dataset)——上进行预测。在对模型的超参数(英语:Hyperparameter_(machine_learning))(例如神经网络中隐藏层的神经元数量)进行调整时,验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止:在验证集误差上升时(这是在训练集上过拟合的信号),停止训练。不过,在实践中,由于验证集误差在训练过程中会有起伏,这种做法有时不奏效。由此,人们发明了一些规则,用做判定过拟合更好的信号。

最后,测试集(英语:test dataset)可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如,没有被用在交叉验证当中),则它也被称之为预留集。


相关

  • 年假年假也称年休,指的是劳工每年在公共假日以外,能够自由安排的有薪假日。大多数国家都有劳动权益保护法律规定雇员最低的年休天数。根据雇主的规定,雇员可能须要在指定的天数前预
  • Google图书Google图书(英语:Google Books)是一个由Google研发的搜索工具,它可以自Google所扫描、经由光学字符识别(OCR)、存储的数字化数据库中搜索数据。此服务于2004年10月在法兰克福书展
  • 白氏树蛙白氏树蛙(学名:Litoria caerulea),别称老爷树蛙、绿雨滨蛙,是一种原产于澳大利亚和新几内亚岛的树蛙,后被引入至美国和新西兰。白氏树蛙属雨滨蛙属(Litoria),它在生理学分类上很接近
  • 豫州豫州,是汉族传统中的汉地九州之一,位于黄河至汉水上游之间的地区,领有中原的主要地域,相当今黄河以南的河南省地区。汉武帝元封五年(公元前106年)于豫州地区设置豫州刺史部作为监
  • Johnson-Corey-Chaykovsky反应Johnson–Corey–Chaykovsky反应(Johnson–Corey–Chaykovsky reaction),有时简称为Corey–Chaykovsky反应或缩写成CCR,是一个用来合成如环氧化合物、氮杂环丙烷和环丙烷这类含
  • 艾希特大学斯特里汉姆 – 350英亩(1.4平方千米) Tremough – 70英亩(280,000平方米)埃克塞特大学(University of Exeter)为英国顶尖学府之一。大学前身为1900年成立的“皇家亚伯特纪念学院”
  • 意大利入侵阿尔巴尼亚贝尼托·墨索里尼佐格一世意大利入侵阿尔巴尼亚(1939年4月7日—4月12日)是法西斯意大利对阿尔巴尼亚王国采取的一个非常简单的军事行动,该冲突是意大利独裁者贝尼托·墨索里尼
  • 朝鲜 (消歧义)朝鲜可以指:
  • 路德维希路德维希(Ludwig)是德语的男性人名,为英语路易斯(Lewis)、法语路易(Louis)的同源词。
  • 浊齿龈塞擦音浊齿龈塞擦音(voiced alveolar affricate)是塞音d和擦音z紧密结合形成的一个浊塞擦音,国际音标为⟨d͡z⟩或⟨d͜z⟩。意大利语的浊z是此音。浊齿龈塞擦音的特征包括:当符号成对