一文搞懂模型训练中的「过拟合」与「欠拟合」：原因分析与实战解决方案

在模型训练和微调（Fine-tuning）过程中，过拟合和欠拟合是几乎每个算法工程师都会遇到的问题。欠拟合意味着模型“学不会”，而过拟合则意味着模型“学过头”。本文将从概念、成因以及解决方法三个层面，系统讲解什么是过拟合与欠拟合，并结合深度学习与大模型微调的实际场景，总结一套实用的排查与优化思路，帮助你在训练过程中少走弯路。

携梦问道

1773人浏览 · 2026-01-09 14:20:18

携梦问道 · 2026-01-09 14:20:18 发布

摘要

在模型训练和微调（Fine-tuning）过程中，过拟合和欠拟合是几乎每个算法工程师都会遇到的问题。欠拟合意味着模型“学不会”，而过拟合则意味着模型“学过头”。本文将从概念、成因以及解决方法三个层面，系统讲解什么是过拟合与欠拟合，并结合深度学习与大模型微调的实际场景，总结一套实用的排查与优化思路，帮助你在训练过程中少走弯路。

一、什么是欠拟合（Underfitting）

1. 欠拟合的定义

欠拟合是指模型过于简单，无法有效学习数据中的真实规律，在训练集和测试集上的表现都不理想。

典型特征：

训练集 Loss 较高
验证集 / 测试集 Loss 同样较高
模型预测结果较为粗糙、不稳定

一句话概括：模型还没学会，就结束训练了。

2. 欠拟合产生的常见原因

模型容量不足（层数少、参数少）
输入特征信息不足
训练轮数（epoch）太少
正则化过强（Dropout 过大、weight decay 过高）
学习率过小，收敛速度慢

在 大模型微调（LLM Fine-tuning） 场景中，欠拟合常见于：

LoRA rank 设置过小
冻结层数过多
微调数据与目标任务差异较大

3. 欠拟合的解决方案

提升模型表达能力
- 使用更大的模型或更深的网络
- 提高 LoRA rank 或 Adapter 容量
- 解冻更多参数参与训练
延长与优化训练
- 增加训练轮数
- 适当提高学习率
- 选择更合适的优化器（如 AdamW）
改善数据与特征
- 使用更高质量、更贴合任务的数据
- 优化 Prompt 设计（对大模型尤为重要）

二、什么是过拟合（Overfitting）

1. 过拟合的定义

过拟合是指模型在训练集上表现很好，但在验证集或真实数据上性能明显下降，泛化能力较差。

典型特征：

训练集 Loss 很低
验证集 Loss 随训练上升
对新数据预测效果不稳定

一句话概括：模型把训练数据“背下来”了。

2. 过拟合产生的常见原因

模型复杂度过高，参数量远大于数据量
训练数据规模小、分布单一
数据噪声或标注错误较多
训练轮数过多
缺乏有效的正则化手段

在 大模型微调 中，过拟合尤为常见：

微调数据只有几千条
采用全参数微调（Full Fine-tuning）
学习率设置过大
Prompt 模式过于固定

3. 过拟合的解决方案

增加数据多样性
- 扩充数据集
- 数据增强（改写、同义替换、打乱结构）
- 多任务联合训练
加强正则化
- 使用 Dropout
- 增大 weight decay
- 使用 Label Smoothing
控制模型复杂度
- 冻结部分网络层
- 使用 LoRA / Adapter / Prefix Tuning
- 降低 LoRA rank
优化训练策略
- 使用 Early Stopping
- 减少训练轮数
- 降低学习率

三、过拟合与欠拟合的对比总结

对比维度	欠拟合	过拟合
训练集表现	差	好
测试集表现	差	差
根本原因	模型太简单	模型太复杂
解决方向	提升模型能力	加强约束与泛化
本质问题	学不会	学过头

四、如何在训练中快速判断？

通常通过 Loss 曲线 就能初步判断：

欠拟合：训练集和验证集 Loss 都较高
过拟合：训练集 Loss 下降，验证集 Loss 上升

理想状态是：训练集和验证集 Loss 同步下降，且差距较小。

五、大模型微调中的实践经验总结

结合实际工程经验，给出几条建议：

小数据场景优先使用 参数高效微调（PEFT）
在 LLM 微调中，过拟合比欠拟合更常见
优先关注验证集指标，而不是训练集 Loss
Prompt 设计本质上是大模型时代的“特征工程”
宁愿少训练一点，也不要把数据“背死”

六、结语

过拟合和欠拟合并不是“错误”，而是模型训练过程中的必经阶段。
真正优秀的模型，并不是在训练集上表现最好，而是在未知数据上依然稳定可靠。

希望本文能帮助你在模型训练和微调过程中，更快定位问题、合理调参。
如果你觉得这篇文章对你有帮助，欢迎点赞、收藏，也欢迎在评论区交流你的实践经验 😊

标签：

深度学习
模型训练
大模型微调

声明：
本文为原创内容，版权归作者所有，转载需注明出处。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r