大语言模型的PPO训练整体流程是怎样的，为什么要启四个模型，

AI生成曾小健

678人浏览 · 2025-07-07 16:12:29

AI生成曾小健 · 2025-07-07 16:12:29 发布

Show thinking

大语言模型PPO训练揭秘：流程、原理与四模型架构解析

近年来，以ChatGPT为代表的大语言模型（LLM）的惊艳表现，使其背后的训练技术——基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）——备受关注。其中，近端策略优化（Proximal Policy Optimization, PPO）算法是RLHF中的核心环节。与传统深度学习训练不同，PPO在训练大语言模型时，巧妙地动用了四个模型协同工作。本文将详细解析大语言模型PPO训练的整体流程，并深入探讨为何需要这四个模型。

PPO训练的整体流程：三阶段精调

大语言模型的PPO训练并非一蹴而就，它通常是RLHF流程的第三个也是最关键的阶段。整个RLHF流程可以分为三个核心步骤：

监督微调（Supervised Fine-Tuning, SFT）: 首先，选取一个经过预训练的语言模型作为基础。然后，使用少量高质量、由人工标注的“指令-回答”数据对该模型进行微调。这一阶段的目标是让模型初步具备理解和遵循人类指令的能力，产出符合特定格式的回答。这个微调后的模型，将作为后续PPO训练的起点。
训练奖励模型（Reward Model, RM）: 这个阶段的目标是训练一个“裁判”模型，使其能够评估模型生成内容的质量。具体做法是，针对同一个指令，让SFT模型生成多个不同的回答。然后，由人工对这些回答进行排序，指出哪个更好，哪个更差。这些排序数据被用来训练一个奖励模型。该模型输入一个“指令-回答”对，输出一个标量分数，分数越高代表回答的质量越好（越符合人类偏好）。
近端策略优化（PPO）训练: 这是整个流程的精髓所在。在这一阶段，我们使用强化学习的方式，利用前一阶段训练好的奖励模型作为环境的“回报信号”，来进一步微调SFT模型。目标是让模型学会在生成内容时，最大化奖励模型给出的分数，从而使其输出更符合人类的偏好。

PPO训练核心：四个模型的协同与博弈

在PPO训练阶段，为了实现稳定高效的优化，研究者们设计了一套包含四个模型的精巧架构。这四个模型各司其职，紧密配合，共同完成对语言模型的“价值观”塑造。

模型	角色	主要作用
1. 策略模型 (Policy Model)	“学生”或“演员” (Actor)	这是我们主要训练的对象。它接收一个指令（Prompt），并生成一段文本（Response）。在PPO训练中，它的参数会不断被更新，目标是生成能够获得更高奖励的回答。
2. 奖励模型 (Reward Model)	“裁判” (Judge)	在第二阶段训练好的模型。它负责评估策略模型生成的“指令-回答”对的质量，并给出一个标量奖励分数。这个分数是指导策略模型优化的核心依据。在PPO训练中，奖励模型的参数是固定不变的。
3. 价值模型 (Critic Model)	“评论家”或“评估者” (Critic)	它的作用是评估在给定指令（状态）下，策略模型可能获得的未来奖励的期望值。通过预测当前策略的好坏，它可以帮助减少奖励信号的方差，从而稳定训练过程，提高训练效率。价值模型的输入是指令，输出是对未来奖励的预测。
4. 引用模型 (Reference Model)	“参照”或“锚点” (Anchor)	通常是初始的SFT模型的一个副本。它的参数在PPO训练过程中也保持不变。其核心作用是作为“锚点”，防止策略模型在追求高奖励的过程中“走火入魔”，过度偏离其原始的语言能力和知识。

Export to Sheets

为什么要启用这四个模型？

这四个模型的协同工作是PPO算法成功的关键，缺一不可。其设计初衷是为了解决强化学习训练中的核心挑战：

明确优化方向：奖励模型（Reward Model） 的存在，为原本模糊的“写得更好”提供了一个可量化的、明确的优化目标（即更高的奖励分数）。
稳定训练过程：强化学习的奖励信号往往带有噪声且存在延迟，会导致训练过程非常不稳定。价值模型（Critic Model） 通过对未来奖励进行预测，可以计算出所谓的“优势函数”（Advantage），它指出了当前行为比平均水平好多少，从而提供了更平滑、方差更低的梯度信号，让训练过程更加稳定。
防止策略遗忘与崩溃：在强化学习中，模型可能会发现一些能够“欺骗”奖励模型的捷径，从而生成一些看似高分但实际上毫无意义或不通顺的内容。引用模型（Reference Model） 的作用就是施加一个“惩罚项”。PPO的目标函数中包含一个KL散度项，用于衡量当前策略模型和引用模型输出的差异。如果策略模型为了追求高分而生成的文本与原始S-T模型的风格、流畅度差异过大，KL散度就会增大，从而在总目标中引入一个惩罚，将模型“拉回来”，确保其在对齐人类偏好的同时，不丧失基本的语言能力。
执行与学习：策略模型（Policy Model） 毫无疑问是整个流程的核心，它是在与环境（由奖励模型和引用模型共同定义）的互动中不断学习和进化的“主角”。

PPO训练循环详解

在实际的PPO训练中，这四个模型会进行如下的循环交互：

生成阶段: 从一个数据集中选取一批指令（Prompts）。
响应阶段: 将这批指令输入给当前的策略模型（Policy Model），生成一批回答（Responses）。
评估阶段:
- 将“指令-回答”对输入给奖励模型（Reward Model），得到每个回答的奖励分数。
- 将指令输入给价值模型（Critic Model），得到对当前状态价值的评估。
- 将“指令-回答”对同时输入给策略模型和引用模型（Reference Model），计算两者输出概率分布的KL散度。
优化阶段: 综合奖励分数、价值评估和KL散度惩罚，计算PPO的损失函数，然后通过反向传播更新策略模型（Policy Model） 和 价值模型（Critic Model） 的参数。