狗都能看懂的Actor-Critic强化学习算法讲解

李宏毅老师的关于Actor-Critic算法的课程笔记

热血厨师长

3185人浏览 · 2024-07-26 18:49:21

热血厨师长 · 2024-07-26 18:49:21 发布

Review Policy Gradient

review policy gradient.png

上面的公式是Policy Gradient的更新函数，这个式子是指在 $s_t$ 时刻采取了 $a_t$ ，计算出对应发生的概率 $pθp_\theta$ ，然后计算在采取了这个 $a_t$ 之后，所得到的reward有多大。但这里需要减去一个baseline，不能让reward都大于0，这样会降低没有sample到的action的概率。同时还需要加上衰减因子，保证后期得到的reward不会过大，从而影响了一开始的action概率。最后把所有时刻的reward求和。

我们将画蓝色横线的式子记作 $G_t^n$ ，它虽然没有偏差，但因为方差大，数值波动比较大。波动大的原因也很好理解， $G_t^n$ 从执行了这个action之后到episode结束得到的所有reward总和，由于sample的概率不相同，所以中间会遇到各种不同的state。

如果我们收集数据的数量足够多，这个波动会被平均掉。但实际收集数据是比较耗时，所以也不会有太多数据。如果说能用期望值（平均）替代 $G_t^n$ ，那可以让训练过程更稳定。这里就需要引入Value-Based的方法。

Review Q-Learning

review q-learning.png

Value-Based的方法有两种：

$Vπ(s)V^{\pi}(s)$ 输入state，输出可能会得到reward的期望值
$Qπ(s,a)Q^{\pi}(s,a)$ 输入state和会采取的action，输出可能会得到reward的期望值

以上两个方法都可以用TD或MC的方法更新，用TD比较稳定，用MC更精确。

Actor Critic

Actor Critic.png

刚刚说到，如果能用期望值（平均）替代 $G_t^n$ ，训练会更加稳定。那 $G_t^n$ 的期望值是什么？它是希望在 $s_t$ 时刻，用 $π\pi$ 这个策略得到 $a_t$ ，执行了 $a_t$ 之后所得到的reward总和的期望值，那这个其实就是 $Qπθ(stn,atn)Q^{\pi_\theta}(s^n_t,a^n_t)$ 的定义。所以有：
$E[G_t^n] = Q^{\pi_\theta}(s^n_t,a^n_t)$
那么我们用 $Qπθ(stn,atn)Q^{\pi_\theta}(s^n_t,a^n_t)$ 替代 $G_t^n$ 这一项即可。还有一项baseline，正常是自己设置，但这里我们可以用Value Function替代， $V (s)$ 是不包含action的， $Q (s, a)$ 是包含action的， $V (s)$ 是 $Q (s, a)$ 的期望值，为什么这么说呢？原因是这样的：

在 $s_t$ 下，价值函数 $Vπ(s)V^\pi(s)$ 表示从状态 $s_t$ 开始，遵循策略 $π\pi$ 的期望回报。
由于策略 $π\pi$ 定义了在 $s_t$ 下采取各个action的概率分布，因此，价值函数 $Vπ(s)V^\pi(s)$ 可以看作是动作价值函数 $Q (s, a)$ 在所有可能动作上的加权平均，即期望值。

所以上图红框内的式子就可以被Value-Based的两个方法给替换掉，这样就可以将Actor和Critic的两个方法给结合起来。

Advantage Actor Critic

Advantage Actor-Critic-1.png

这样结合的缺点就是需要训练两个网络，有办法可以只训练一个网络用来预测两个值吗？可以，事实上可以只训练 $V (s)$ ，用 $V (s)$ 替代 $Q (s, a)$ 。回到 $Q (s, a)$ 的定义，因为 $r_t$ 本身是一个随机值，只有我们取了期望值之后才是 $Q (s, a)$ 的定义。现在为了简化Actor-Critic的训练，直接将求期望值去掉。这样就可以用 $V (s)$ 替代 $Q (s, a)$ 。

但这样做的坏处也显而易见，是引入了一个随机的变量。但不过相较于 $G_t^n$ 来说还好， $r_t$ 只是某一个step会有的随机变量，方差会比 $G_t^n$ 小的多。所以整体上还是能接受的。

Advantage Actor-Critic-2.png

红框里面是原来的Advantage项，已经用Value-Based的方法替代了。那么Advantage Actor-Critic完整流程如上图：

有一个Policy $π\pi$ 和环境做互动收集训练数据。（Policy Gradient中是用这些训练数据直接优化Policy）
用TD或MC优化 $V (s)$
套用上面的公式更新Policy $π\pi$
重复1-3直至收敛

Tips

Advantage Actor-Critic-3.png

backbone shared

和很多CV任务一样，前面的特征提取都是可以共享的。然后预测action和预测value分成两个分支，这部分和Dueling DQN很像，只是最后没有合并成一个 $Q (s, a)$

large entropy

我们可以设置一些限制，使得action的entropy会大一点，不同的action被采用的概率平均一些，才会有几率探索更多state，得到比较好的结果。

asynchronous

强化学习通常花时间都是在收集训练数据过程中。开多个线程与环境做互动收集数据可以有效缩短训练时间。

Asynchronous Advantage Actor-Critic

Asynchronous Advantage Actor-Critic简称为A3C，具体如何实现？

首先有一个初始的global network

复制N个network
让它们都和环境做互动，收集数据
计算梯度
更新模型

这里值得注意的是，所有的actor都是并行去收集，训练，更新的。可能有人问，如果复制出来的参数是 $θ1\theta^1$ ，但是要更新的时候已经被别覆盖成 $θ2\theta^2$ 了呢？这个没关系，直接覆盖就行。

Pathwise Derivative Policy Gradient

Pathwise Derivative Policy Gradient.png

之前说到Q-Learning在连续的问题上表现不好。我们完全可以利用Actor预测action的能力，为 $QπQ^\pi$ 提供action，使得 $QπQ^\pi$ 的值越大越好。在训练的时候会直接将两个网络连起来，并且freeze $QπQ^\pi$ 的参数，只训练Actor，这个思路和CV任务里的GAN很像，用生成器生成一个图片，用判别器去判断是好是坏。

Pathwise Derivative Policy Gradient-2.png

算法的流程也很简单，有一个 $π\pi$ 去和环境交互，收集数据，训练 $QπQ^\pi$ ，然后将 $QπQ^\pi$ 固定，只训练actor使得 $QπQ^\pi$ 输出的值越大越好。在Q-Learning中能用到的trick，这里也能用上，比如replay buffer等。

相较于之前的Q-Learning算法，改动四个地方就行：

之前使用 $QπQ^\pi$ 决定用什么action，现在改用 $π\pi$ 来预测action
用 $π^\hat{\pi}$ 预测的action代入到 $QπQ^\pi$ 中，不再解 $\max\limits_{a} \ Q^\pi(s,a)$ （会有两个 $π\pi$ ，其中一个是固定的，和训练DQN是一样的）
训练 $π\pi$ （其优化目标是让 $QπQ^\pi$ 越大越好）
更新 $π\pi$ 的参数

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模