基于Pytorch的强化学习(DQN)之Sarsa算法

目录1. 引言2. 数学推导2. 算法步骤1. 引言我们现在来看看强化学习中一种常用的算法：Sarsa算法。它常用于学习动作价值网络。2. 数学推导我们知道动作价值函数就是return对于随机变量state和action的期望值，即：我们之前推导过一个return的递推式：将其代入得到我们知道就是的期望，于是我们得到等式右端含有随机变量，我们使用来近似，用来近似，于是我们有，又由于等式右端整体是

ZDDWLIG

1508人浏览 · 2022-03-24 22:16:20

ZDDWLIG · 2022-03-24 22:16:20 发布

1. 引言

2. 数学推导

2. 算法步骤

1. 引言

我们现在来学习一下强化学习中一种常用的算法：Sarsa算法。它常用于学习动作价值网络 $Q_{\pi}$ ，它是通过Q表的形式进行决策，在 Q 表中挑选值较大的动作值施加在环境中来换取奖惩，也就是根据计算出来的Q值来作为选取动作的依据

2. 数学推导

我们知道动作价值函数 $Q_{\pi}$ 就是return对于随机变量state和action的期望值，即：

$Q_\pi(s_t|a_t)=E[U_t|S_t=s_t,A_t=a_t]$

我们之前推导过一个return的递推式：

$U_t=R_t+\sum_{i=1}^{\infty}\gamma^i R_{t+i}=R_t+\gamma U_{t+1}$

将其代入得到

$Q_\pi(s_t|a_t)=E[U_t|S_t=s_t,A_t=a_t]=E[R_t+\gamma U_{t+1}|S_t=s_t,A_t=a_t]=E[R_t|S_t=s_t,A_t=a_t]+\gamma E[U_{t+1}|S_t=s_t,A_t=a_t]$

我们知道 $Q_{\pi}(S_{t+1},A_{t+1})$ 就是 $U_{t+1}$ 的期望，于是我们得到 $Q_{\pi}(s_t,a_t)=E[R_t+\gamma Q_{\pi}(S_{t+1},A_{t+1})]$

等式右端含有随机变量 $R_t,S_{t+1},A_{t+1}$ ，我们使用 $r_t$ 来近似 $R_t$ ，用 $Q_{\pi}(s_{t+1},a_{t+1})$ 来近似，于是我们有 $Q_{\pi}(s_t,a_t)\approx E[r_t+\gamma Q_{\pi}(s_{t+1},a_{t+1})]$ ，又由于等式右端整体是一个期望不好计算，于是我们使用蒙特卡罗方法近似这个期望，我们将 $r_t+\gamma Q_{\pi}(s_{t+1},a_{t+1})$ 看成TD target，这里的 $Q_{\pi}(s_{t+1},a_{t+1})$ 我们可以用查询Q表(状态动作价值表)得到接下来要想办法让 $Q_{\pi}(s_t,a_t)$ 接近这个TD target。

Q表：

基本算法思路如下：

观测到一个state transition： $(s_t,a_t,r_t,s_{t+1})$
根据policy函数 $\pi(\cdot|s_{t+1})$ 抽取 $a_{t+1}$
计算TD target $y_t=r_t+\gamma Q_{\pi}(s_{t+1},a_{t+1})$
计算TD error $\delta_t=Q_{\pi}(s_t,a_t)-y_t$
更新 $Q_{\pi}(s_{t},a_{t})\leftarrow Q_{\pi}(s_{t},a_{t})-\alpha\delta_t$

其中第一步的transition序列加上 $s_{t+1}$ 组成的五元组 $(s_t,a_t,r_t,s_{t+1},a_{t+1})$ 就是Sarsa的名称的由来。

2. 算法步骤

具体怎么实现呢?当然还是用神经网络啦：

用神经网络 $q(s,a;w)$ 来近似 $Q_\pi(s,a)$
计算TD target: $y_t=r_t+\gamma q_(s_{t+1},a_{t+1};w)$
计算TD error: $\delta_t=q(s,a;w)-y_t$
损失函数loss： $\frac{\delta_t^2}{2}$
梯度下降: $w\leftarrow w-\alpha\delta_t\frac{\partial \,q(s,a;w)}{\partial \,w}$

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

所有评论(0)

查看更多评论

ZDDWLIG

@ZDDWLIG

已为社区贡献6条内容