【机器学习】训练(Training)、验证(Validation)和测试(Testing)

这种三阶段的划分方法是机器学习中的最佳实践，能够帮助我们建立既能在训练数据上表现良好，又能很好地泛化到新数据的模型。- 这种划分方法有助于评估模型的真实性能，避免过拟合。- 通常使用最大的数据集比例（60-80%的数据）- 这个阶段可能会多次重复，直到找到最优的模型配置。- 这个阶段只进行一次，用来评估最终模型的实际性能。- 使用测试集对最终选定的模型进行评估。- 使用验证集来评估模型的泛化能力。

飞飞是甜咖啡

1744人浏览 · 2025-02-06 17:40:15

飞飞是甜咖啡 · 2025-02-06 17:40:15 发布

机器学习中训练(Training)、验证(Validation)和测试(Testing)这三个阶段的作用和关系。

1. 训练阶段 (Training)

- 使用训练集数据来训练模型
- 模型通过学习训练数据的特征和模式来调整其内部参数
- 这个阶段模型会不断优化以减少预测误差
- 通常使用最大的数据集比例（60-80%的数据）

2. 验证阶段 (Validation)

- 使用验证集来评估模型的泛化能力
- 帮助调整模型的超参数（如学习率、层数等）
- 防止过拟合，选择最佳的模型配置
- 通常使用 10-20% 的数据
- 这个阶段可能会多次重复，直到找到最优的模型配置

3. 测试阶段 (Testing)
- 使用测试集对最终选定的模型进行评估
- 测试数据是完全独立的，之前从未被模型"见过"
- 提供模型在真实世界中表现的无偏估计
- 通常使用 10-20% 的数据
- 这个阶段只进行一次，用来评估最终模型的实际性能

重要说明：
- 这三个数据集必须是互相独立的，不能有重叠
- 测试集必须只使用一次，不能用来调整模型
- 验证集帮助我们在多个模型配置中选择最佳的一个
- 这种划分方法有助于评估模型的真实性能，避免过拟合

这种三阶段的划分方法是机器学习中的最佳实践，能够帮助我们建立既能在训练数据上表现良好，又能很好地泛化到新数据的模型。

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

cover

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

cover

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

cover

「极限压缩量化未来」Modelers GeekDay上海站圆满落幕

所有评论(0)

查看更多评论

飞飞是甜咖啡

@weixin_54607024

已为社区贡献1条内容