训练集、验证集和测试集

✍ dations ◷ 2025-05-17 10:26:58 #机器学习,计算机科学

机器学习的普遍任务就是从数据中学习和构建模型(该过程称之为训练),并且能够在将来遇到的数据上进行预测。用于构建最终模型的数据集通常有多个;在构建模型的不同阶段,通常有三种数据集:训练集、验证集和测试集。

首先,模型在训练集(英语:training dataset)上进行拟合。对于监督式学习,训练集是由用来拟合参数(例如人工神经网络中神经元之间链接的权重)的样本组成的集合。在实践中,训练集通常是由输入向量(标量)和输出向量(标量)组成的数据对。其中输出向量(标量)被称为目标或标签。在训练过程中,当前模型会对训练集中的每个样本进行预测,并将预测结果与目标进行比较。根据比较的结果,学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来,拟合得到的模型会在第二个数据集——验证集(英语:validation dataset)——上进行预测。在对模型的超参数(英语:Hyperparameter_(machine_learning))(例如神经网络中隐藏层的神经元数量)进行调整时,验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止:在验证集误差上升时(这是在训练集上过拟合的信号),停止训练。不过,在实践中,由于验证集误差在训练过程中会有起伏,这种做法有时不奏效。由此,人们发明了一些规则,用做判定过拟合更好的信号。

最后,测试集(英语:test dataset)可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如,没有被用在交叉验证当中),则它也被称之为预留集。


相关

  • 俄国åæ ‡ï¼š60°N 90°E / 60°N 90°E / 60; 90ä¿„ç½—æ–¯è”邦(俄语:РоÑÑийÑĞºĞ°Ñ Ğ¤ĞµĞ´ĞµÑ
  • 流鼻水鼻漏(英语:rhinorrhea或rhinorrhoea)是指鼻腔充斥大量黏液的一种症状。该症状也被称为流鼻涕、流鼻水等,在人身上较为常见。鼻漏是过敏(过敏性鼻炎)和其他一些疾病(如普通感冒)的常
  • 抗真菌药物杀真菌剂(英语:fungicide)是指用来杀死或抑制真菌或真菌袍子的化合物或者生物体。真菌能够对农业产生严重的危害,例如严重减产,质量降低等。卵菌不是真菌,尽管它和真菌很相似,例如
  • 黑钙土黑钙土(英语:Chernozem),名字源于俄罗斯语,意指“黑色的土”,又称“黑土”。由于含有大量的磷酸、腐植质、磷、氨、镁、还有钙等矿物质,黑钙土在农业上是属于一种上好的土质,农产量
  • University of California, Santa Barbara加州大学圣巴巴拉分校(英语:University of California, Santa Barbara,简称UCSB,又常被译作圣巴巴拉加州大学),是一所著名的公立研究型大学,加州大学系统的成员之一。学校坐落在位
  • 1075年
  • 室建陀室建陀(梵语:स्कन्द,拉丁字母转写:Skanda),又称塞建陀、鸠摩罗(意译童子)、迦
  • 代理型孟乔森综合征代理型孟乔森综合征(Factitious disorder imposed on another)是指照顾者故意夸大或捏造受照顾者的生理、心理、行为或精神问题,甚或促成该等问题的心理疾病。。与孟乔森综合征
  • 大嘴鸟大嘴鸟(学名Largirostrornis)是一属反鸟亚纲鸟类。其下只有一个物种,就是六齿大嘴鸟。它们生存于白垩纪早期。大嘴鸟的化石包括正模及副模,都是在中国辽宁九佛堂组发现。九佛堂
  • 个体化原理个体化原理(principium individuationis),哲学术语,原为经院哲学用语,借以指关于时间-空间的理论,德国哲学家叔本华在《意志和表象的世界》中引述。悲观主义的叔本华认为,世界是痛