大模型-训练-【篇五:后训练-强化学习】
本文介绍了强化学习(RL)的演进路径,重点对比了不同奖励机制:RLHF(人类反馈)、RLAIF(AI反馈)、RLVR(可验证奖励),以及过程监督和评分标准奖励。RLVR在数学推理和代码能力方面表现突出。文章还比较了PPO、GRPO等RL算法特性。
RL演进
OpenAI:RLHF
DeepSeek-V3:RLVR(基于可验证奖励的强化学习),VR是可验证奖励(也称规则奖励)
学习目标
最大化奖励,并用KL散度进行正则化,如下:

奖励设计
1、RLHF:基于人类反馈的强化学习,借助从人类偏好中训练出的奖励模型生成奖励,对其安全性与语言风格进行对齐
2、RLAIF:基于AI反馈的强化学习,将LLM与书面形式规则结合,生成奖励
3、RLVR:基于可验证奖励的强化学习,在提升数学推理、代码能力方面突出
4、过程监督:借助训练出的过程奖励模型(Process Reward Model,PRM)对长任务中的中间步骤进行评分
5、基于评分标准的奖励:通过判断模型输出是否满足一组明确的评分标准来生成奖励 。通常会使用多个评分标准,因此最终奖励往往是各评分项得分的加权和或平均值。

RL算法
有PPO、GRPO、REINFORCE、DPO,具体对比(critic、奖励模型、在线or离线、kl、适用的场景)如下:

结尾
亲爱的读者朋友:感谢您在繁忙中驻足阅读本期内容!您的到来是对我们最大的支持❤️
正如古语所言:"当局者迷,旁观者清"。您独到的见解与客观评价,恰似一盏明灯💡,能帮助我们照亮内容盲区,让未来的创作更加贴近您的需求。
若此文给您带来启发或收获,不妨通过以下方式为彼此搭建一座桥梁: ✨ 点击右上角【点赞】图标,让好内容被更多人看见 ✨ 滑动屏幕【收藏】本篇,便于随时查阅回味 ✨ 在评论区留下您的真知灼见,让我们共同碰撞思维的火花
我始终秉持匠心精神,以键盘为犁铧深耕知识沃土💻,用每一次敲击传递专业价值,不断优化内容呈现形式,力求为您打造沉浸式的阅读盛宴📚。
有任何疑问或建议?评论区就是我们的连心桥!您的每一条留言我都将认真研读,并在24小时内回复解答📝。
愿我们携手同行,在知识的雨林中茁壮成长🌳,共享思想绽放的甘甜果实。下期相遇时,期待看到您智慧的评论与闪亮的点赞身影✨!
万分感谢🙏🙏您的点赞👍👍、收藏⭐🌟、评论💬🗯️、关注❤️💚~
自我介绍:一线互联网大厂资深算法研发(工作6年+),4年以上招聘面试官经验(一二面面试官,面试候选人400+),深谙岗位专业知识、技能雷达图,已累计辅导15+求职者顺利入职大中型互联网公司。熟练掌握大模型、NLP、搜索、推荐、数据挖掘算法和优化,提供面试辅导、专业知识入门到进阶辅导等定制化需求等服务,助力您顺利完成学习和求职之旅(有需要者可私信联系)
友友们,自己的知乎账号为“快乐星球”,定期更新技术文章,敬请关注!
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)