3.2 大语言模型(LLM)核心技术:预训练、有监督微调(SFT)与对齐(RLHF)
这三阶段范式是构建现代强大、安全、可控的大语言模型的核心蓝图。预训练得到的基础模型虽然知识渊博,但其行为模式是“被动”地续写文本,而非“主动”地以有用、可靠的方式响应用户的指令或问题。(通常通过人类反馈的强化学习实现)则旨在让模型的输出更符合人类的价值标准和偏好。通过RLHF,模型学会了在“保持语言通顺”和“最大化人类偏好”之间取得平衡,最终输出更安全、更有用的内容。即上一阶段描述的SFT,用于收
3.2 大语言模型(LLM)核心技术:预训练、有监督微调(SFT)与对齐(RLHF)
大语言模型之所以展现出令人惊叹的对话、推理和代码生成能力,并非一蹴而就。其能力构建遵循一个清晰的三阶段技术栈:预训练 赋予模型通用的世界知识和语言能力,有监督微调 教会模型如何遵循人类指令,而对齐(通常通过人类反馈的强化学习实现)则旨在让模型的输出更符合人类的价值标准和偏好。本节将深入解析这一核心工作流程。
3.2.1 阶段一:预训练——构建基础语言模型
预训练是大语言模型能力的地基,其目标是在海量无标注文本数据上训练一个自回归语言模型 或去噪语言模型,使其掌握语言的统计规律和蕴含其中的世界知识。
- 核心目标: 学习一个通用的、强大的下一个词预测器。即,给定上文,模型能够计算词汇表中所有词作为下一个词出现的概率。
- 模型架构: 主要采用仅解码器 的Transformer架构(如GPT系列)。该架构通过掩码自注意力机制确保模型在预测下一个词时只能看到当前词及之前的上下文,符合自回归生成的要求。
- 训练数据与损失函数:
- 数据: 使用数万亿token规模的超大规模文本语料库(如网页、书籍、代码等)。
- 目标: 最大似然估计。最小化以下负对数似然损失函数:
[
\mathcal{L}{PT} = -\frac{1}{T} \sum{t=1}^{T} \log P(w_t | w_{<t}; \Theta)
]
其中,(T)是序列长度,(w_t)是第(t)个词,(w_{<t})是(t)之前的所有词,(\Theta)是模型参数。
- 习得能力: 通过这一过程,模型不仅学会了语法、句法等语言规则,还以一种参数化的形式,将训练数据中蕴含的事实、常识、逻辑关系等世界知识 编码在了其数百亿甚至万亿的参数中。此时得到的模型通常被称为基础模型。
3.2.2 阶段二:有监督微调——学习指令遵循
预训练得到的基础模型虽然知识渊博,但其行为模式是“被动”地续写文本,而非“主动”地以有用、可靠的方式响应用户的指令或问题。有监督微调是引导模型行为的关键一步。
- 核心目标: 将基础模型的“续写”能力,转化为“对话”或“指令遵循”能力。
- 数据: 使用数量较少但质量极高的指令-回答对 数据集。例如,
(指令: "解释一下牛顿第一定律", 回答: "牛顿第一定律,又称惯性定律...")。 - 训练过程:
- 以预训练好的基础模型作为初始化。
- 在一个指令-回答对
(x, y)上,将指令x作为输入,将期望的回答y作为训练目标。 - 训练目标与预训练类似,仍然是自回归的下一个词预测,但只计算回答部分
y的损失。
[
\mathcal{L}{SFT} = -\frac{1}{L} \sum{l=1}^{L} \log P(y_l | x, y_{<l}; \Theta)
]
- 作用: SFT 相当于在一个特定的“行为分布”上对模型进行微调。它教会模型理解人类指令的格式和意图,并按照一种高质量的回答风格进行输出。经过SFT的模型已经可以作为一个有用的聊天机器人,但其回答的质量、安全性和无害性可能仍不稳定。
3.2.3 阶段三:对齐——基于人类反馈的强化学习
SFT之后,模型可能仍会产生虚构事实、带有偏见或无用的回答。对齐阶段的目标是进一步优化模型,使其输出不仅正确,而且有帮助、诚实、无害,即与复杂、主观的人类偏好保持一致。
RLHF 是实现这一目标的核心技术,它包含三个关键步骤:
1. 有监督微调:
即上一阶段描述的SFT,用于收集初始的示范数据并训练一个初始的SFT模型。这是RLHF的起点。
2. 奖励模型训练:
人类偏好难以用简单的规则定义,因此训练一个奖励模型 来替代人类进行偏好评判。
- 数据收集: 给定一个指令
x,让SFT模型生成多个(如4个)不同的回答{y_1, y_2, y_3, y_4}。标注人员对这些回答从好到坏进行排序(如y_2 > y_1 > y_4 > y_3)。 - 模型训练: 训练一个RM模型(通常由SFT模型初始化),其输入是指令-回答对
(x, y),输出是一个标量奖励值 (R(x, y)),表示该回答符合人类偏好的程度。训练目标是让RM对排序中更好的回答打出显著更高的奖励分。常用损失函数如配对排序损失:
[
\mathcal{L}{RM} = -\mathbb{E}{(x, y_w, y_l) \sim D} \left[ \log \sigma(R(x, y_w) - R(x, y_l)) \right]
]
其中,(y_w) 是胜出的回答,(y_l) 是失败的回答,(D) 是偏好数据集。
3. 强化学习微调:
在此阶段,我们将SFT模型视为需要优化的策略 (\pi^{RL}_{\Theta}),将RM作为奖励函数,使用RL算法(近端策略优化,PPO)来优化策略。
- 目标: 最大化以下目标函数:
[
\text{Objective} = \mathbb{E}{(x, y) \sim \pi^{RL}{\Theta}} \left[ R(x, y) \right] - \beta \mathbb{D}{KL} \left[ \pi^{RL}{\Theta}(y|x) \ || \ \pi^{SFT}(y|x) \right]
] - 公式解读:
- (\mathbb{E}[R(x, y)]): 期望奖励项。鼓励模型生成能获得RM高奖励的回答。
- (\mathbb{D}{KL}): KL散度惩罚项。防止RL策略 (\pi^{RL}{\Theta}) 过度偏离原始的SFT模型 (\pi^{SFT})。这是至关重要的正则化项,避免模型为追求高奖励而“走火入魔”,输出无意义的乱码(因为乱码可能意外获得高奖励)。
- (\beta): 控制惩罚强度的超参数。
通过RLHF,模型学会了在“保持语言通顺”和“最大化人类偏好”之间取得平衡,最终输出更安全、更有用的内容。
总结:从知识到智慧的三步曲
| 阶段 | 核心目标 | 关键技术 | 数据 | 输入-输出示例 |
|---|---|---|---|---|
| 预训练 | 学习通用知识和语言模型 | 自回归语言建模、Transformer Decoder | 海量无标注文本 | 输入:“天空是...” -> 输出:“蓝色的” |
| 有监督微调 | 学习指令遵循格式 | 有监督学习、指令微调 | 万-十万级高质量指令-回答对 | 输入:“解释一下光合作用” -> 输出:“光合作用是...的过程” |
| 对齐 | 使输出符合人类偏好 | 强化学习(PPO)、奖励模型 | 数万-数十万级人类偏好排序 | 优化输出,使其更准确、详尽、安全 |
这三阶段范式是构建现代强大、安全、可控的大语言模型的核心蓝图。它不仅是一个工程框架,更体现了从“拥有知识”到“善用知识”的AI系统演进哲学。理解这一流程是深入大语言模型技术细节和应用开发的基石。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)