训练集、验证集和测试集

✍ dations ◷ 2025-11-14 02:31:59 #机器学习,计算机科学

机器学习的普遍任务就是从数据中学习和构建模型(该过程称之为训练),并且能够在将来遇到的数据上进行预测。用于构建最终模型的数据集通常有多个;在构建模型的不同阶段,通常有三种数据集:训练集、验证集和测试集。

首先,模型在训练集(英语:training dataset)上进行拟合。对于监督式学习,训练集是由用来拟合参数(例如人工神经网络中神经元之间链接的权重)的样本组成的集合。在实践中,训练集通常是由输入向量(标量)和输出向量(标量)组成的数据对。其中输出向量(标量)被称为目标或标签。在训练过程中,当前模型会对训练集中的每个样本进行预测,并将预测结果与目标进行比较。根据比较的结果,学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来,拟合得到的模型会在第二个数据集——验证集(英语:validation dataset)——上进行预测。在对模型的超参数(英语:Hyperparameter_(machine_learning))(例如神经网络中隐藏层的神经元数量)进行调整时,验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止:在验证集误差上升时(这是在训练集上过拟合的信号),停止训练。不过,在实践中,由于验证集误差在训练过程中会有起伏,这种做法有时不奏效。由此,人们发明了一些规则,用做判定过拟合更好的信号。

最后,测试集(英语:test dataset)可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如,没有被用在交叉验证当中),则它也被称之为预留集。


相关

  • 鼠兔鼠兔科(学名 Ochotonidae)是兔形目下的一个科,有两个属,分别是意大利鼠兔属(Prolagus)和鼠兔属(Ochotona),然而也有部分书籍将意大利鼠兔属列为兔形目下的一个科。意大利鼠兔属下仅有
  • Oliver Sacks奥利佛·萨克斯,CBE(Oliver Sacks,1933年7月9日-2015年8月30日),英国伦敦著名医生、生物学家、脑神经学家、作家及业余化学家。他根据他对病人的观察,而写了好几本畅销书。他侧重于
  • 丹尼尔·布恩丹尼尔·布恩国家森林(英语:Daniel Boone National Forest)是唯一一座完全位于肯塔基州境内的国家森林。该森林设立于1937年,起初名为坎伯兰国家森林(Cumberland National Forest
  • 特拉法加广场特拉法加广场(英语:Trafalgar Square)是英国大伦敦西敏市的广场,也是一处著名旅游景点,建于1805年。广场南端是伦敦传统意义上的中心点查灵十字,再往南是政府办公区白厅,通向国会大
  • 2006年冬奥会第二十届冬季奥林匹克运动会(英语:the XX Olympic Winter Games,法语:les XXes Jeux olympiques d'hiver,意大利语:i XX Giochi olimpici invernali),于2006年2月10日至2月26日在意
  • 曼彻斯特 (新罕布什尔州)曼彻斯特(英语:Manchester)是美国新罕布什尔州希尔斯波罗县两个县治之一。2006年人口109,497人,是该州最大城市。这个数字于2010年上升至109,565人。1751年建城,名为德里菲尔德(De
  • 文化差异文化差异是不同文化之间的差别,当他们相遇之时会产生冲击、竞争及失落等反应。文化差异可能由于宗教界别、种族群体、语言能力、政治立场、社会阶级、性别、民族主义、年龄代
  • 恩格尔伯特·陶尔斐斯恩格尔伯特·陶尔斐斯(德语:Engelbert Dollfuß,1892年10月4日-1934年7月25日),奥地利政治人物,基督社会党籍,1932年-1934年担任奥地利总理。陶尔斐斯生于下奥地利的特克辛塔尔。1930
  • .mw-parser-output ruby>rt,.mw-parser-output ruby>rtc{font-feature-settings:"ruby"1}.mw-parser-output ruby.large{font-size:250%}.mw-parser-output ruby.larger{fon
  • 主魮主魮(学名:)为辐鳍鱼纲鲤形目鲤科的其中一个种。分布于非洲南非与纳米比亚间的橘河流域,体长可达7.5公分,栖息在开放水域,属肉食性,以浮游动物及昆虫等为食。