大语言模型的PPO训练整体流程是怎样的,为什么要启四个模型,

Show thinking

大语言模型PPO训练揭秘:流程、原理与四模型架构解析

近年来,以ChatGPT为代表的大语言模型(LLM)的惊艳表现,使其背后的训练技术——基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)——备受关注。其中,近端策略优化(Proximal Policy Optimization, PPO)算法是RLHF中的核心环节。与传统深度学习训练不同,PPO在训练大语言模型时,巧妙地动用了四个模型协同工作。本文将详细解析大语言模型PPO训练的整体流程,并深入探讨为何需要这四个模型。

PPO训练的整体流程:三阶段精调

大语言模型的PPO训练并非一蹴而就,它通常是RLHF流程第三个也是最关键的阶段。整个RLHF流程可以分为三个核心步骤:

  1. 监督微调(Supervised Fine-Tuning, SFT): 首先,选取一个经过预训练的语言模型作为基础。然后,使用少量高质量、由人工标注的“指令-回答”数据对该模型进行微调。这一阶段的目标是让模型初步具备理解和遵循人类指令的能力,产出符合特定格式的回答。这个微调后的模型,将作为后续PPO训练的起点。

  2. 训练奖励模型(Reward Model, RM): 这个阶段的目标是训练一个“裁判”模型,使其能够评估模型生成内容的质量。具体做法是,针对同一个指令,让SFT模型生成多个不同的回答。然后,由人工对这些回答进行排序,指出哪个更好,哪个更差。这些排序数据被用来训练一个奖励模型。该模型输入一个“指令-回答”对输出一个标量分数,分数越高代表回答的质量越好(越符合人类偏好)。

  3. 近端策略优化(PPO)训练: 这是整个流程的精髓所在。在这一阶段,我们使用强化学习的方式,利用前一阶段训练好的奖励模型作为环境的“回报信号”,来进一步微调SFT模型。目标是让模型学会在生成内容时,最大化奖励模型给出的分数,从而使其输出更符合人类的偏好。

PPO训练核心:四个模型的协同与博弈

在PPO训练阶段,为了实现稳定高效的优化,研究者们设计了一套包含四个模型的精巧架构。这四个模型各司其职,紧密配合,共同完成对语言模型的“价值观”塑造。

模型

角色

主要作用

1. 策略模型 (Policy Model)

“学生”或“演员” (Actor)

这是我们主要训练的对象。它接收一个指令(Prompt),并生成一段文本(Response)。在PPO训练中,它的参数会不断被更新,目标是生成能够获得更高奖励的回答。

2. 奖励模型 (Reward Model)

“裁判” (Judge)

第二阶段训练好的模型。它负责评估策略模型生成的“指令-回答”对的质量,并给出一个标量奖励分数。这个分数是指导策略模型优化的核心依据。在PPO训练中,奖励模型的参数固定不变的。

3. 价值模型 (Critic Model)

“评论家”或“评估者” (Critic)

它的作用是评估在给定指令(状态)下,策略模型可能获得的未来奖励的期望值。通过预测当前策略的好坏,它可以帮助减少奖励信号的方差,从而稳定训练过程,提高训练效率。价值模型的输入是指令,输出是对未来奖励的预测。

4. 引用模型 (Reference Model)

“参照”或“锚点” (Anchor)

通常是初始的SFT模型的一个副本。它的参数在PPO训练过程中也保持不变。其核心作用是作为“锚点”,防止策略模型在追求高奖励的过程中“走火入魔”,过度偏离其原始的语言能力和知识。

Export to Sheets

为什么要启用这四个模型?

这四个模型的协同工作是PPO算法成功的关键,缺一不可。其设计初衷是为了解决强化学习训练中的核心挑战:

  • 明确优化方向奖励模型(Reward Model) 的存在,为原本模糊的“写得更好”提供了一个可量化的、明确的优化目标(即更高的奖励分数)。

  • 稳定训练过程:强化学习的奖励信号往往带有噪声且存在延迟,会导致训练过程非常不稳定。价值模型(Critic Model) 通过对未来奖励进行预测,可以计算出所谓的“优势函数”(Advantage),它指出了当前行为比平均水平好多少,从而提供了更平滑、方差更低的梯度信号,让训练过程更加稳定。

  • 防止策略遗忘与崩溃:在强化学习中,模型可能会发现一些能够“欺骗”奖励模型的捷径,从而生成一些看似高分但实际上毫无意义或不通顺的内容。引用模型(Reference Model) 的作用就是施加一个“惩罚项”。PPO的目标函数中包含一个KL散度项,用于衡量当前策略模型和引用模型输出的差异。如果策略模型为了追求高分生成的文本与原始S-T模型的风格、流畅度差异过大,KL散度就会增大,从而在总目标中引入一个惩罚,将模型“拉回来”,确保其在对齐人类偏好的同时,不丧失基本的语言能力。

  • 执行与学习策略模型(Policy Model) 毫无疑问是整个流程的核心,它是在与环境(由奖励模型引用模型共同定义)的互动中不断学习和进化的“主角”。

PPO训练循环详解

在实际的PPO训练中,这四个模型会进行如下的循环交互:

  1. 生成阶段: 从一个数据集中选取一批指令(Prompts)

  2. 响应阶段: 将这批指令输入给当前的策略模型(Policy Model),生成一批回答(Responses)。

  3. 评估阶段:

    • 将“指令-回答”对输入给奖励模型(Reward Model),得到每个回答的奖励分数。

    • 将指令输入给价值模型(Critic Model),得到对当前状态价值的评估。

    • 将“指令-回答”对同时输入给策略模型引用模型(Reference Model),计算两者输出概率分布的KL散度。

  4. 优化阶段: 综合奖励分数价值评估KL散度惩罚,计算PPO的损失函数,然后通过反向传播更新策略模型(Policy Model)价值模型(Critic Model) 的参数。

通过不断重复上述过程,策略模型会逐渐学会如何在保持语言连贯性和事实性的基础上,生成更符合人类偏好的内容,最终成为我们所见到的强大而“懂事”的大语言模型。

总而言之,大语言模型的PPO训练是一个精妙而复杂的系统工程。通过引入策略、奖励、价值和引用四个模型,PPO得以在巨大的语言空间中,稳定、高效地引导模型向着更符合人类价值观和偏好的方向进化,是当前实现大语言模型与人类对齐的最主流和最有效的技术路径之一。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐