基于策略的深度强化学习：理论部分

PPO是基于策略的强化学习，本文开始讲基于策略的强化学习，本文主要是理论部分

溯源006

465人浏览 · 2023-09-22 11:59:49

溯源006 · 2023-09-22 11:59:49 发布

1 策略（policy）：

策略是智能体的动作模型，它决定了智能体的动作。它其实是一个函数，用于把输入的状态变成动作。智能体会用策略来选取下一步的动作：
在这里插入图片描述
策略可以分为两种：

2 策略函数

上一篇文章DQN讲到最优动作价值函数 $Q_∗(s,a)$ 可以用来做控制，显然策略函数 $\pi(a|s)$ 也可以用来做控制.
基于价值的深度强化学习：DQN
然后就会有下面的问题：
在这里插入图片描述

3 目标函数

策略函数可以作为actor与环境交互，形成轨迹 $\tau$
在这里插入图片描述

给定策略网络的参数 $\theta$ ，就可以计算某个轨迹 $\tau$ 发生的概率为：
在这里插入图片描述
在交互的过程中还会产生奖励：

对于一条完整的轨迹𝜏的奖励𝑅(𝜏)：

显然轨迹 $\tau$ 的分布服从 $p_\theta(\tau)$ ，既然 $R(\tau)$ 是一个随机变量，那么其期望：

显然，我们希望 $\overline{R}_\theta$ 越大越好，所以目标函数是：
$\quad \overline{R}_\theta$

4 求梯度

需要用到梯度上升来进行参数更新：
在这里插入图片描述

接下来的问题就是怎么计算目标函数的梯度的问题：
在这里插入图片描述
将前面 $p_\theta(\tau)$ 的公式带入 $\nabla log p_\theta(\tau)$ 得到：

从 $p_\theta(\tau)$ 中采样N个轨迹 $\tau$ (这个过程其实就是基于当前策略网络𝜋(𝑎|𝑠;𝜃)与环境交互，获取N条轨迹)：

把前面的串起来就是：
在这里插入图片描述
对此进行一个直观解释就是：

5 基于策略的深度强化学习算法1

基于上面的内容，形成初步的基于策略的强化学习算法：
在这里插入图片描述

6 优势函数

上面的算法的其中一个问题在于调节粒度太粗了：对于同一条轨迹，肯定有的动作好，有的动作坏。但是如果按照上面的算法，同一条轨迹内的 $R(\tau^n)$ 是一样的，导致不管是好的还是坏的动作都统一增加概率或者减小概率。
所以我们希望 $R(\tau^n)$ 是和状态与动作相关的，而不是整条轨迹，我们把这个可以记作 $A(s_t,a_t)$ ，把他称之为优势函数。如果这个优势函数带参数，可以写作 $A^\omega (s_t,a_t)$
优势函数的意义是，假设我们在某一个状态 $s_t$ 执行某一个动作 $a_t$ ，相较于其他可能的动作， $a_t$ 有多好。

7 Reinforce 与AC算法

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模