大模型LLM | 一文搞懂大模型的后训练Post-training（SFT 监督微调）

Post-training是大语言模型训练流程中的关键阶段，发生在预训练（Pre-training）之后。如果说预训练让模型学会了语言的基本规律和知识，那么Post-training就是教会模型如何像一个有用的助手一样与人类对话。在预训练阶段，模型通过大量无标注文本学习语言模式，但这样的模型往往无法很好地理解人类的意图，也不知道如何给出有帮助的回应。Post-training通过监督微调（Supe

安卓老猴子

1584人浏览 · 2025-07-04 11:07:41

安卓老猴子 · 2025-07-04 11:07:41 发布

当我们与ChatGPT对话时，很难想象这个能够流畅回答问题、拒绝不当请求、甚至承认自己不知道某些事情的AI助手，在训练初期其实只是一个"鹦鹉学舌"的语言模型。从预训练模型到真正有用的AI助手，这中间的关键转变就发生在Post-training阶段。

想象一下，预训练后的大语言模型就像一个博学但不懂礼貌的学者——它知识渊博，能够续写任何文本，但它不知道如何与人交流，不知道什么该说什么不该说，更不知道如何承认自己的无知。Post-training的监督微调（SFT）就是要教会这个"学者"如何成为一个合格的助手。

New LLM Pre-training and Post-training Paradigms

一、Post-training（SFT 监督微调）

1、什么是后训练（Post-Training）？

Post-training是大语言模型训练流程中的关键阶段，发生在预训练（Pre-training）之后。如果说预训练让模型学会了语言的基本规律和知识，那么Post-training就是教会模型如何像一个有用的助手一样与人类对话。

在预训练阶段，模型通过大量无标注文本学习语言模式，但这样的模型往往无法很好地理解人类的意图，也不知道如何给出有帮助的回应。Post-training通过监督微调（Supervised Fine-Tuning, SFT）解决了这个问题。

New LLM Pre-training and Post-training Paradigms

2、为什么后训练（Post-Training）如此重要？

如果说Pre-training让模型掌握了语言的统计规律和丰富知识，那么Post-training则需要教会模型区分什么时候应该承认"我不知道"（控制幻觉），什么时候应该相信当前对话中的确切信息而非记忆中的模糊印象（优先工作记忆）。这个过程决定了AI助手是否能够从一个善于表达但可能误导用户的"话痨"，转变为一个既有能力又值得信赖的智能伙伴。

1、幻觉现象的控制

Pre-training赋予模型强大的语言生成能力，但也带来了"幻觉"问题——模型会生成看似合理但实际错误的信息。这源于预训练时模型只学会了"填补空白"的能力，却没有学会区分"知道"和"不知道"。

Post-training通过人类反馈强化学习（RLHF）和指令微调来教会模型承认不确定性，训练模型在遇到不确定信息时表达"我不知道"。但这形成了一个微妙的平衡：过度的反幻觉训练可能让模型变得过于保守，失去创造力和实用性。

2、区分"模糊回忆"与"工作记忆"

Pre-training赋予模型的是基于统计关联的"模糊回忆"——模型能感知到概念间的关系，但缺乏精确性。

模型处理信息时存在两种不同的模式：

模糊回忆：基于训练数据的统计关联，能感知概念关系但缺乏精确性
工作记忆：对当前对话上下文的准确处理，可以精确引用刚刚提到的信息

Post-training的关键任务是训练模型优先依赖工作记忆——即当前上下文中的确切信息，而对来自训练数据的模糊印象保持谨慎。这通过专门的上下文利用训练和引用准确性训练来实现。

在这里插入图片描述

二、后训练过程

从语言模型到对话助手的蜕变：通过大规模的人类反馈数据，让模型不仅"会说话"，更重要的是"会正确地说话"。

首先用标准化的对话协议将人类自然语言转换为模型可理解的token序列，然后使用包含大量人类标注员精心构建的高质量对话样本进行训练——这些样本涵盖基础问答、复杂解释、适当拒绝等各种场景，让模型学会在特定情况下给出有帮助、无害、诚实的回应，最终从单纯的文本生成工具转变为能够理解对话上下文、遵循人类价值观、具备交互能力的智能助手。
在这里插入图片描述

1、对话训练（Conversations）

监督微调使用精心构建的对话数据集来训练模型。这些数据集包含了人类与理想助手之间的对话样本，每个样本都展示了在特定情况下模型应该如何回应。

典型的对话训练类型如下：

基础问答："2+2等于多少？“→"2+2=4”
解释性问题："为什么天空是蓝色的？"→详细的科学解释
拒绝不当请求："如何黑进电脑？“→"很抱歉，我不能帮助您进行这种活动”

2. 对话协议与格式（Conversation Protocol/Format）

Post-training中的一个重要环节是对话格式的标准化。通过Tokenizer（如常用的Tiktokenizer），将人类的自然语言对话转换为模型可以理解的token序列。这个过程确保了模型能够准确理解对话的结构，区分人类输入和助手回应。

在这里插入图片描述

3. 对话数据集（Conversation Datasets）

高质量的对话数据集是监督微调成功的关键。早期的InstructGPT论文（2022年）就展示了如何通过人类标注员创建对话数据。这些数据集不仅要涵盖各种话题和场景，还要体现出理想助手的特质：有帮助、无害、诚实。人类标注员会根据特定的标注指南创建对话，确保模型学习到正确的回应模式。这个过程需要大量的人工投入，但对于模型的最终性能至关重要。

在这里插入图片描述