训练集、验证集和测试集

✍ dations ◷ 2025-06-07 03:37:16 #机器学习,计算机科学

机器学习的普遍任务就是从数据中学习和构建模型(该过程称之为训练),并且能够在将来遇到的数据上进行预测。用于构建最终模型的数据集通常有多个;在构建模型的不同阶段,通常有三种数据集:训练集、验证集和测试集。

首先,模型在训练集(英语:training dataset)上进行拟合。对于监督式学习,训练集是由用来拟合参数(例如人工神经网络中神经元之间链接的权重)的样本组成的集合。在实践中,训练集通常是由输入向量(标量)和输出向量(标量)组成的数据对。其中输出向量(标量)被称为目标或标签。在训练过程中,当前模型会对训练集中的每个样本进行预测,并将预测结果与目标进行比较。根据比较的结果,学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来,拟合得到的模型会在第二个数据集——验证集(英语:validation dataset)——上进行预测。在对模型的超参数(英语:Hyperparameter_(machine_learning))(例如神经网络中隐藏层的神经元数量)进行调整时,验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止:在验证集误差上升时(这是在训练集上过拟合的信号),停止训练。不过,在实践中,由于验证集误差在训练过程中会有起伏,这种做法有时不奏效。由此,人们发明了一些规则,用做判定过拟合更好的信号。

最后,测试集(英语:test dataset)可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如,没有被用在交叉验证当中),则它也被称之为预留集。


相关

  • 内皮细胞内皮细胞或血管内皮是一薄层的专门上皮细胞,由一层扁平细胞所组成。它形成血管的内壁,是血管管腔内血液及其他血管壁(单层鳞状上皮)的界面。内皮细胞是沿着整个循环系统,由心脏直
  • β-tgβ-血小板球蛋白(β-血小板球蛋白,也称为Pro-Platelet碱性蛋白)是存储在血小板的α-颗粒中并在血小板激活后大量释放的蛋白。它是一种趋化因子(C-X-C基序)配体7的蛋白异型体。他
  • 威廉·惠利特威廉·雷丁顿·惠利特(英语:William Redington Hewlett,1913年5月20日-2001年1月12日),小名比尔·惠利特(Bill Hewlett),美国电机工程师与企业家,与大卫·普克德(David Packard)共同创办
  • 梅肯梅肯(英语:Macon /ˈmeɪkən/),正式名称梅肯-比伯县(Macon–Bibb County),位于美国佐治亚州首府亚特兰大市东南约81英里(约130公里)处,人口约15万,是该州第五大城市、工业重镇,其传统产
  • 分类学 (消歧义)分类学是关于对事物进行分类的科学分支。中文中,“分类学”一词原则上可以指对任何事物进行分类的科学方法,但现时多指生物学方面的分类法,又可以细分为以下几个:
  • 魏玛古典主义魏玛的古典主义在德国文学中指的是1786年约翰·沃尔夫冈·冯·歌德的第一次意大利旅行之后的阶段,魏玛的古典主义大约延续到1810年。有时,魏玛的古典主义也被用来指称有着亲密
  • 文化冲突文化冲突为文化价值观、文化信仰与信念之间的分歧所导致的一种冲突。文化冲突已经被援引来解释某些犯罪行为的原因。
  • span class=nowrapZr(NOsub3/sub)sub4/sub/span硝酸锆是一种无机化合物,化学式为Zr(NO3)4,存在五水合物和无水物。和其他硝酸盐一样,硝酸锆是一种氧化剂。无水硝酸锆可由四氯化锆和五氧化二氮反应得到:其水合物通过氢氧化锆和
  • 否认怀孕否认怀孕是一种少见的情形,是指孕妇否认(英语:denial)自身怀孕的事实。一研究显示否认怀孕的孕妇比例约占孕妇人口的0.26%。否认怀孕和秘密怀孕不同,秘密怀孕的孕妇不知道自身怀
  • 圣马修岛坐标:60°24′31″N 172°43′12″W / 60.40861°N 172.72000°W / 60.40861; -172.72000 圣马修岛是美国的岛屿,位于努尼瓦克岛西南面295公里的白令海,由阿拉斯加州负责管辖,长