大模型-训练-【篇五：后训练-强化学习】

本文介绍了强化学习（RL）的演进路径，重点对比了不同奖励机制：RLHF（人类反馈）、RLAIF（AI反馈）、RLVR（可验证奖励），以及过程监督和评分标准奖励。RLVR在数学推理和代码能力方面表现突出。文章还比较了PPO、GRPO等RL算法特性。

小新学习屋

599人浏览 · 2025-10-17 00:03:51

小新学习屋 · 2025-10-17 00:03:51 发布

RL演进

OpenAI：RLHF

DeepSeek-V3：RLVR（基于可验证奖励的强化学习），VR是可验证奖励（也称规则奖励）

学习目标

最大化奖励，并用KL散度进行正则化，如下：

奖励设计

1、RLHF：基于人类反馈的强化学习，借助从人类偏好中训练出的奖励模型生成奖励，对其安全性与语言风格进行对齐

2、RLAIF：基于AI反馈的强化学习，将LLM与书面形式规则结合，生成奖励

3、RLVR：基于可验证奖励的强化学习，在提升数学推理、代码能力方面突出

4、过程监督：借助训练出的过程奖励模型（Process Reward Model，PRM）对长任务中的中间步骤进行评分

5、基于评分标准的奖励：通过判断模型输出是否满足一组明确的评分标准来生成奖励。通常会使用多个评分标准，因此最终奖励往往是各评分项得分的加权和或平均值。

RL算法

有PPO、GRPO、REINFORCE、DPO，具体对比（critic、奖励模型、在线or离线、kl、适用的场景）如下：

结尾

亲爱的读者朋友：感谢您在繁忙中驻足阅读本期内容！您的到来是对我们最大的支持❤️

正如古语所言："当局者迷，旁观者清"。您独到的见解与客观评价，恰似一盏明灯💡，能帮助我们照亮内容盲区，让未来的创作更加贴近您的需求。

若此文给您带来启发或收获，不妨通过以下方式为彼此搭建一座桥梁： ✨ 点击右上角【点赞】图标，让好内容被更多人看见 ✨ 滑动屏幕【收藏】本篇，便于随时查阅回味 ✨ 在评论区留下您的真知灼见，让我们共同碰撞思维的火花

我始终秉持匠心精神，以键盘为犁铧深耕知识沃土💻，用每一次敲击传递专业价值，不断优化内容呈现形式，力求为您打造沉浸式的阅读盛宴📚。

有任何疑问或建议？评论区就是我们的连心桥！您的每一条留言我都将认真研读，并在24小时内回复解答📝。

愿我们携手同行，在知识的雨林中茁壮成长🌳，共享思想绽放的甘甜果实。下期相遇时，期待看到您智慧的评论与闪亮的点赞身影✨！

万分感谢🙏🙏您的点赞👍👍、收藏⭐🌟、评论💬🗯️、关注❤️💚～

自我介绍：一线互联网大厂资深算法研发（工作6年+），4年以上招聘面试官经验（一二面面试官，面试候选人400+），深谙岗位专业知识、技能雷达图，已累计辅导15+求职者顺利入职大中型互联网公司。熟练掌握大模型、NLP、搜索、推荐、数据挖掘算法和优化，提供面试辅导、专业知识入门到进阶辅导等定制化需求等服务，助力您顺利完成学习和求职之旅（有需要者可私信联系）

友友们，自己的知乎账号为“快乐星球”，定期更新技术文章，敬请关注！

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐