仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

长久以来，开源社区严重依赖数据驱动的模仿学习来增强模型推理能力，但这种方法的局限也显而易见——更强的推理能力需要更高质量的数据，但高质量数据总是稀缺，使得模仿和蒸馏难以持续。虽然OpenAI o1和o3的成功证明了强化学习有着更高的上限，但强化学习有着两个关键挑战：（1）如何获得精准且可扩展的密集奖励；（2）如何设计可以充分利用这些奖励的强化学习算法。PRIME算法从隐式过程奖励（implicit

安卓老猴子

1001人浏览 · 2025-01-07 11:38:16

安卓老猴子 · 2025-01-07 11:38:16 发布

OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力，在基于模仿学习的Scaling Law逐渐受到质疑的今天，基于探索的强化学习有望带来新的Scaling Law。

近日，清华大学NLP实验室、上海AI Lab、清华大学电子系、OpenBMB社区等团队提出一种新的结合过程奖励的强化学习方法——PRIME（Process Reinforcement through IMplicit REwards）。

在这里插入图片描述

采用PRIME方法，研究人员不依赖任何蒸馏数据和模仿学习，仅用8张A100，花费一万块钱左右，不到10天时间，就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。

具体而言，研究人员利用Qwen2.5-Math-7B-Base作为基座模型，训练出了新模型Eurus-2-7B-PRIME，并在美国IMO选拔考试AIME 2024上的准确率达到26.7%，大幅超越GPT-4o，Llama3.1-70B和Qwen2.5-Math-7B-Instruct，且仅使用了Qwen Math数据的 1/10。其中，强化学习方法PRIME为模型带来了16.7%的绝对提升，远超已知的任何开源方案。

该项目一经开源就在海外AI社区爆火，短短几天Github取得近300star。

未来，基于PRIME方法和更强的基座模型有潜力训练出接近OpenAI o1的模型。

一、PRIME方法介绍

长久以来，开源社区严重依赖数据驱动的模仿学习来增强模型推理能力，但这种方法的局限也显而易见——更强的推理能力需要更高质量的数据，但高质量数据总是稀缺，使得模仿和蒸馏难以持续。

虽然OpenAI o1和o3的成功证明了强化学习有着更高的上限，但强化学习有着两个关键挑战：（1）如何获得精准且可扩展的密集奖励；（2）如何设计可以充分利用这些奖励的强化学习算法。

PRIME算法从隐式过程奖励（implicit process reward）的思想出发解决这两个问题。隐式过程奖励模型可以仅在输出奖励模型（outcome reward model, ORM）的数据，即答案的最终对错上进行训练，而隐式地建模过程奖励，最终自动训练出一个过程奖励模型，这整个过程都有严格的理论保证。

详细推导见：https://huggingface.co/papers/2412.01981

基于隐式过程奖励模型的这种性质，研究人员指出将其应用于强化学习有三大优势：

过程奖励： 隐式过程奖励模型能够为每个 token 提供价值估计，在提供过程奖励的同时无需训练额外的价值模型（value model）
可扩展性： 隐式过程奖励模型只需结果标签即可在线更新。所以，我们可以结合策略模型采样与结果验证器来直接更新PRM，有效缓解分布偏移与可扩展性问题。
简洁性： 隐式过程奖励模型本质上就是一种语言模型。在实践中，研究人员发现可以直接用初始的策略模型初始化PRM。

隐式过程奖励解决了PRM在大模型强化学习中怎么用，怎么训，怎么扩展的三大问题，甚至不需要训练额外的奖励模型就可以开始强化学习，易用性和可扩展性极佳。

具体的PRIME算法流程如下图所示，它是一种在线强化学习算法，能够将每个token的过程奖励无缝应用于强化学习流程中。

二、实验结果

研究人员详细比较了PRIME算法和基线方法。

相比于仅用结果监督，PRIME有着2.5倍的采样效率提升，在下游任务上也有着显著提升。

研究人员还验证了PRM在线更新的重要性，可以看到，在线的PRM更新要显著优于固定不更新的PRM，这也证明了PRIME算法设计和合理性。

此外，研究人员还额外收集数据，基于Qwen2.5-Math-Instruct训练了SOTA水平的EurusPRM，能够在Best-of-N采样中达到开源领先水平。

三、Showcase演示

Question （AIME 2024试题，Claude-3.5-Sonnet做错）

Answer

Question

Which number is larger? 9.11 or 9.9?

Answer

强化学习是连接已有智能体（大模型）和现实世界（世界模型，具身智能）的桥梁，以及将世界反馈内化为模型智能的路径，将在下一代人工智能的发展中起到重要作用。PRIME 算法创新性地将隐式过程奖励与强化学习结合，解决了大模型强化学习的奖励稀疏问题，有望推动大模型复杂推理能力的进一步提升。

blog链接：https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f
GitHub链接：https://github.com/PRIME-RL/PRIME

四、如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r