训练集、验证集和测试集

✍ dations ◷ 2024-12-23 03:54:45 #机器学习,计算机科学

机器学习的普遍任务就是从数据中学习和构建模型(该过程称之为训练),并且能够在将来遇到的数据上进行预测。用于构建最终模型的数据集通常有多个;在构建模型的不同阶段,通常有三种数据集:训练集、验证集和测试集。

首先,模型在训练集(英语:training dataset)上进行拟合。对于监督式学习,训练集是由用来拟合参数(例如人工神经网络中神经元之间链接的权重)的样本组成的集合。在实践中,训练集通常是由输入向量(标量)和输出向量(标量)组成的数据对。其中输出向量(标量)被称为目标或标签。在训练过程中,当前模型会对训练集中的每个样本进行预测,并将预测结果与目标进行比较。根据比较的结果,学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来,拟合得到的模型会在第二个数据集——验证集(英语:validation dataset)——上进行预测。在对模型的超参数(英语:Hyperparameter_(machine_learning))(例如神经网络中隐藏层的神经元数量)进行调整时,验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止:在验证集误差上升时(这是在训练集上过拟合的信号),停止训练。不过,在实践中,由于验证集误差在训练过程中会有起伏,这种做法有时不奏效。由此,人们发明了一些规则,用做判定过拟合更好的信号。

最后,测试集(英语:test dataset)可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如,没有被用在交叉验证当中),则它也被称之为预留集。


相关

  • 双态性真菌双态性真菌可存在霉菌/菌丝/丝状形式或酵母形式的真菌。一个例子就是马尔尼菲青霉菌:,在室温下,它作为一个霉菌生长,在体温下,它作为一个酵母生长。一些物种是人类和其他动物重
  • 破火山口破火山口(又称火山臼、陷落火山口)通常是由于火山锥顶部(或一群火山锥)因失去地下熔岩的支撑崩塌形成,是比较特殊的一种火山口。猛烈的爆发除了形成破火山口外,还使火山的高度大大
  • 雾月政变雾月政变是西哀士连同拿破仑、富歇和塔列朗谋画的夺权计划。西哀士与拿破仑结盟,共同策划政变,并在共和8年雾月18∼19日(1799年11月9日~11月10日)推动政变,迫使督政辞职,驱散立法议
  • 希尔阿奇博尔德·维维安·希尔,CH,OBE,FRS(英语:Archibald Vivian Hill,1886年9月26日-1977年6月3日),英国生理学家,也是生物物理学与运筹学中分支学门的建立者之一。1923年与奥图·梅尔霍
  • AgO氧化高银(实验式:AgO),确切讲应称为氧化银(I,III)(英语:Silver(I,III) oxide,AgIAgIIIO2)或四氧化四银(Ag4O4),是黑色或灰色不溶性固体:602。它由过二硫酸钾在沸腾的碱性溶液中氧化硝酸银
  • 大陆冰川海洋性冰川(温性季风性冰川),是对中国冰川的分类,相对应的则为“大陆性冰川”。是最早由中国冰川学家、院士施雅风出的对冰川的分类方法。
  • 汤用彤汤用彤(1893年8月4日-1964年5月1日),字锡予,湖北黄梅人,生于甘肃省渭源县,中国近代国学大师,中央研究院第一届院士。汤用彤父亲汤霖,字雨三,为光绪十六年庚寅恩科进士,平生致力于汉学,对
  • 贺林贺林(1953年7月-)是一位中国遗传生物学家,上海交通大学教授。1953年出生于北京,1986年于南京铁道医学院(现东南大学医学院)获硕士学位,1991年于英国佩士来大学获理学博士学位。现任
  • 剑潭站坐标:25°05′04″N 121°31′30″E / 25.0844°N 121.5250°E / 25.0844; 121.525062,857人次(2019年7月) 剑潭站位于台湾台北市士林区,为台北捷运淡水信义线(淡水线)的捷运车站
  • 盾之勇者成名录角色列表盾之勇者成名录角色列表是《盾之勇者成名录》作品中登场的角色介绍。配音员顺序为:动画版/广播剧版。只有标示一个的情况下为动画版。本作故事开始时以岩谷尚文为核心人物进发