在这里插入图片描述

📖标题:DAPO: An Open-Source LLM Reinforcement Learning System at Scale
🌐来源:arXiv, 2503.14476

🌟摘要

🔸推理扩展赋予LLM前所未有的推理能力,强化学习是引发复杂推理的核心技术。然而,最先进的推理LLM的关键技术细节是隐藏的(例如在OpenAI o1博客和DeepSeek R1技术报告中),因此社区仍然难以重现他们的RL训练结果。
🔸我们提出了解耦剪辑和动态采样策略优化(DAPO)算法,并完全开源了一个最先进的大规模RL系统,该系统使用Qwen2.5-32B基础模型在AIME 2024上获得了50分。与之前隐瞒训练细节的工作不同,我们介绍了我们算法的四项关键技术,这些技术使大规模LLM RL取得了成功。
🔸此外,我们开源了基于verl框架的训练代码(https://github.com/volcengine/verl),以及经过精心策划和处理的数据集。我们开源系统的这些组件增强了可重复性,并支持大规模LLM RL的未来研究,详见https://dapo-sia.github.io/

🛎️文章简介

🔸研究问题:大语言模型(LLM)在强化学习(RL)中存在训练效率和效果问题,尤其是在复杂推理任务中的表现。
🔸主要贡献:论文提出了一个开源的强化学习系统,命名为DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization),并展示了其在AIME 2024竞赛中的出色表现,超过了之前的最佳结果。此外,论文还介绍了四个关键技术来提升RL在长链推理(long-CoT)场景中的有效性和效率。

📝重点思路

🔸采用Proximal Policy Optimization(PPO)和Group Relative Policy Optimization(GRPO)作为基础方法,通过引入剪裁策略(Clip-Higher)来增加低概率token的生成多样性。
🔸通过动态采样策略(Dynamic Sampling),在训练过程中过滤掉准确率为1或0的样本,以提高样本效率。
🔸引入令牌级策略梯度损失(Token-Level Policy Gradient Loss),以规避GRPO中所有样本在损失计算中分配了相同的权重。
🔸设计了长度感知的惩罚机制(Soft Overlong Punishment),以避免因生成过长样本而引入的奖励噪声,确保训练过程的稳定性和有效性。

🔎分析总结

🔸通过Clip-Higher策略,成功缓解了策略熵崩溃现象,增强了模型的探索能力,从而提高了生成样本的多样性。
🔸动态采样策略的应用显著提高了训练效率,减少了由于样本准确率过高导致的梯度消失问题。
🔸令牌级策略梯度损失使得较长的序列对整体梯度更新有更大的影响,能够更好地适应奖励信号,避免了低效的样本级别损失计算。
🔸合理的奖励设计和长度控制对模型学习过程的稳定性至关重要,避免了因奖励噪声造成的训练不稳定。

💡个人观点

论文的核心是在强化学习中引入剪裁策略、动态采样、令牌级损失和长度惩罚,有效解决了传统RL在长链推理场景下的局限性。

🧩附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐