李宏毅深度强化学习导论——演员-评论员

本文主要介绍演员-评论员(Actor-Critic)算法。

愤怒的可乐

1018人浏览 · 2024-03-26 08:32:07

愤怒的可乐 · 2024-03-26 08:32:07 发布

引言

本文主要介绍演员-评论员(Actor-Critic)算法。

Critic

在这里插入图片描述

给定Actor $θ\theta$ ，Critic评估当观测到 $s$ (或进一步地采取行动 $a$ )的好坏。

价值函数(Value function)，记为 $Vθ(s)V^\theta(s)$ ，就是一种Critic。

在这里插入图片描述
它的输入是现在的游戏画面，这里的上标 $θ\theta$ 表示它观察的对象是 $θ\theta$ 这个actor，输出是一个标量。这个标量表示当看到游戏画面 $s$ ，actor $θ\theta$ 接下来期望可以得到了折扣累积奖励： $G1′=r1+γr2+γ2r3+⋯G^\prime_1 = r_1 + \gamma r_2 + \gamma^2 r_3 + \cdots$ 。

比如上图两个游戏画面中，左边有很多外星人，右边则相对少很多，因此左边估计的(价值)标量就会比右边大，当然前提是这个Actor足够厉害，不然没一会就挂了价值估计也会很低。

价值函数依赖于我们观察的Actor，同样的游戏画面不同的Actor应该要得到不同的价值。

那么如何估计价值函数？
我们可以训练一个Critic来估计价值函数，有两种常用的训练方法。

MC

第一种是基于Monte-Carlo(蒙特卡洛,MC)的方法。
它的原理是，让Actor $θ\theta$ 去和环境进行很多轮互动，然后就有很多的数据。在这里插入图片描述
经过多轮游戏，我们知道看到状态 $s_a$ ，在这轮游戏结束折扣累积奖励会使 $Ga′G_a^\prime$ ；看到状态 $s_b$ ，在这轮游戏结束折扣累积奖励会使 $Gb′G_b^\prime$ ；

其实核心是计算期望，比如有很多轮游戏都看到了 $s_a$ ，然后计算它们的均值当成看到 $s_a$ 会后会得到的折扣累积奖励就好了。

那么我们让Critic看到 $s_a$ 或 $s_b$ 的输出分别与 $Ga′G_a^\prime$ 或 $Gb′G_b^\prime$ 越接近越好。

TD

另一种是时序差分(Temporal-difference,TD)方法。MC需要需要玩完整场游戏才能得到关于累积奖励的数据，而TD方法则不同。

只要有 $s_t,a_t,r_t,s_{t+1}$ 的数据就好了，分别是当前状态、当前采取的行动、所获得的奖励、采取行动后跳到的下一个状态。

我们先来看 $Vθ(st)V^\theta(s_t)$ 和 $Vθ(st+1)V^\theta(s_{t+1})$ 之间的关系：
$\begin{aligned} V^\theta(s_t) &= r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} \cdots \\ V^\theta(s_t) &= r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} \cdots \\ \end{aligned} \tag 1$

联立两个等式我们可以看出：
$V^\theta(s_t) = r_t + \gamma V^\theta(s_{t+1}) \tag 2$

假设我们现在有这样的数据： $s_t,a_t,r_t,s_{t+1}$ 。

在这里插入图片描述
那么分别把 $s_t,s_{t+1}$ 代入价值函数中，分别得到 $Vθ(st)V^\theta(s_t)$ 和 $Vθ(st+1)V^\theta(s_{t+1})$ ，根据等式(2)前者减去 $γ\gamma$ 乘后者的值应该和 $r_t$ 尽量接近。

MC v.s. TD

假设Critic观察到下面8个episode的数据：
在这里插入图片描述
用MC和TD来观察，算出来的价值函数有可能不一样。

那么 $Vθ(sb)V^\theta(s_b)$ 表示看到 $s_b$ 后actor $θ\theta$ 期望获得的折扣累积回报： $68=34\frac{6}{8}=\frac{3}{4}$ ，因为8次游戏里面有6次得到1分。

那 $Vθ(sa)V^\theta(s_a)$ 怎么计算，根据MC方法有： $01=0\frac{0}{1}=0$ ；
根据TD方法(等式(2))有： $Vθ(sa)=r+Vθ(sb)⇒34=0+Vθ(sb)V^\theta(s_a) =r + V^\theta(s_b) \Rightarrow \frac{3}{4} = 0 + V^\theta(s_b)$ ，所以 $Vθ(sb)=34V^\theta(s_b)=\frac{3}{4}$ 。

可以看到这两种方法算出来的结果不一样，但从它们的角度来说，都是对的。

下面我们看Critic如何被用在训练Actor上。我们上篇文章说可以通过下图的方式来训练Actor：
在这里插入图片描述

但我们留下来一个问题，即这个偏置 $b$ 的取值是多少？
这里有一个合理的取值，就是 $Vθ(s)V^\theta(s)$ 。
即我们根据同样的训练数据可以训练一个Critic，它可以衡量一个状态的期望累积奖励。所以：

在这里插入图片描述
我们来理解下 $Vθ(st)V^\theta(s_t)$ 代表什么意思。现在有 $At=Gt′−Vθ(st)A_t = G_t^\prime - V^\theta(s_t)$ 。

在这里插入图片描述
我们知道，根据概念是看到 $s_t$ 后会得到的累积奖励期望值。但是要注意的是，看到 $s_t$ 后，你的Actor不一定会执行 $a_t$ ，因为在训练时Actor也要有随机性。
这样我们可以得到不同的累积奖励 $G$ ，平均起来就得到了 $Vθ(st)V^\theta(s_t)$ 。

那么这里定义 $Gt′G_t^\prime$ 为在 $s_t$ 下执行 $a_t$ 最后得到的累积奖励。
如果 $A_t > 0$ 代表 $Gt′>Vθ(st)G_t^\prime > V^\theta(s_t)$ ，表明动作 $a_t$ 比(随机执行动作的)平均要好；否则如果 $A_t < 0$ 代表比平均要差。

但是仔细思考可能会发现哪里有点不对，这里 $Gt′G_t^\prime$ 是一个样本的结果，而 $Vθ(st)V^\theta(s_t)$ 是一个均值。

如果是拿均值减均值就得到了我们要了解的最后一个版本：
在这里插入图片描述
上一个版本我们是用 $Gt′−Vθ(st)G_t^\prime - V^\theta(s_t)$ 来估计 $A_t$ 。
现在变成了用均值，具体地，在 $s_t$ 后执行动作 $a_t$ 得到奖励 $r_t$ ，跳到状态 $s_{t+1}$ ，然后在 $s_{t+1}$ 处拿多个episode的均值计算出 $Vθ(st+1)V^\theta(s_{t+1})$ ，或者说我们可以直接将 $s_{t+1}$ 输入给我们的Critic就可以得到这个 $Vθ(st+1)V^\theta(s_{t+1})$ 。最后再加上 $r_t$ 就可以得到在 $s_t$ 采取 $a_t$ 后跳到 $s_{t+1}$ 后会得到的期望累积奖励。

然后我们把 $Gt′G_t^\prime$ 换成 $rt+Vθ(st+1)r_t + V^\theta(s_{t+1})$ 得到
$A_t = r_t + V^\theta(s_{t+1}) - V^\theta(s_{t})$

这就是Advantage Actor-Critic(A2C)方法。

从算法描述我们可以看出Actor和Critic可以通过两个神经网络来模拟。在这里插入图片描述
Actor看到游戏画面，输出要采取的动作分布；Critic看到游戏画面，输出这个Actor会得到的折扣累积奖励期望，是一个标量。

它们的输入是一样的，所以前几层的参数是可以共享的，比如输入是游戏画面时，那么前几层就是CNN网络。所以实际操作时我们可以设计成上图这样。绿色的网络代表CNN，用于游戏画面特征提取。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r