基于Pytorch的强化学习(DQN)之 REINFORCE with baseline

目录1. 引言2. 估计2.1 估计期望2.2 估计价值函数2.3 估计状态函数3. 算法3.1 策略网络3.2 价值网络1. 引言我们上次讲到了baseline的基本概念，今天来讲讲使用到baseline的常用算法：REINFORCE2. 估计我们之前得到了状态价值函数的梯度表达式我们希望使其梯度上升，现状就需要解决这么几个难题：等式右侧是一个期望表达式，不好计算；含有未知的；含有未知的，现在我

ZDDWLIG

1388人浏览 · 2022-04-05 22:29:49

ZDDWLIG · 2022-04-05 22:29:49 发布

1. 引言

我们上次讲到了baseline的基本概念，今天来讲讲使用到baseline的常用算法：REINFORCE

2. 估计

我们之前得到了状态价值函数的梯度表达式 $\frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}=E_A[\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t))]$

我们希望使其梯度上升，现状就需要解决这么几个难题：等式右侧是一个期望表达式，不好计算；含有未知的 $Q_{\pi}(s_t,a_t)$ ；含有未知的 $V_{\pi}(s_t)$ ，现在我们来解决这几个问题。

2.1 估计期望

首先解决期望问题，我们上次引入了随机梯度函数 $g(a_t)=\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t))$

根据 $a\sim \pi(a|s)$ 抽取 $a_t$ 使用蒙特卡罗算法近似这个期望，则 $\frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}\approx g(a_t)=\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t))$ ，这样就解决了期望的问题。

2.2 估计价值函数

我们虽然解决了期望的问题，但是等式右侧还有 $Q_{\pi}(s_t,a_t)$ ，由于 $Q_{\pi}(s_t,a_t)$ 是return的期望，于是我们可以考虑使用观测到的return来近似 $Q_{\pi}(s_t,a_t)$ ，在一把对局结束之后我们获得一个trajectory $(s_1,a_1,r_1,...,s_n,a_n,r_n)$ ，我们就可以计算 $Q_{\pi}(s_t,a_t)\approx u_t=\sum_{i=t}^{n}\gamma^{i-t}r_i$ ，这样一个未知量就被解决了，这种方法也是蒙特卡罗算法。

2.3 估计状态函数

最后一步就是近似 $V_{\pi}(s_t)$ ，这里我们使用神经网络 $v(s;w)$ 来近似状态价值函数 $V_{\pi}(s)$ ，即 $V_{\pi}(s)\approx v(s;w)$ 。

3. 算法

我们的算法中出现了两个神经网络，于是我们需要分别更新两个网络的参数

3.1 策略网络

第一个网络近似的是策略函数 $\pi(a|s)$ 状态价值函数 $\frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}$ 的梯度用 $\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(u_t- v(s;w))$ 近似。令 $u_t- v(s;w)=-\delta_t$

我们需要价值函数变大，所以我们使用梯度上升来更新策略网络 $\theta\leftarrow \theta-\beta\,\delta_t\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}$

3.2 价值网络

第二个网络就是我们引入近似 $V_{\pi}(s)$ 的神经网络 $v(s;w)$

由于 $V_{\pi}(s_t)=E[U_t|s_t]\approx u_t$ 我们要使 $v(s;w)\rightarrow V_{\pi}(s)$ ，只需要 $v(s;w)\rightarrow u_t$ ，也就是减小

$\delta_t=v(s;w)-u_t$ ，于是我们定义loss函数 $\frac{\delta^2}{2}$ 并做梯度下降 $w\leftarrow w-\alpha\delta_t\,\frac{\partial \,v(s_t;w)}{\partial \,w}$

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

所有评论(0)

查看更多评论

ZDDWLIG

@ZDDWLIG

已为社区贡献6条内容