matlab gamma函数_强化学习--时间差分方法的matlab简单实现

weixin_39669769

379人浏览 · 2020-11-29 00:05:06

weixin_39669769 · 2020-11-29 00:05:06 发布

时间差分方法(TD方法)

在蒙特卡洛方法中，状态的价值是通过以下公式求出：

其中

是学习率，

是状态

处的折扣累积回报值。其公式推导如下

^[1]：

这种方法有一个缺点，就是在一次试验中需要等到终止状态出现才会结束，所以在这里借鉴动态规划的”自举“思想将其改写，使试验还未结束时就能估计出当前的值函数。

根据前面的知识，我们知道

,将其代入到上式中：

以上就是时间差分方法的值函数更新公式，其中

为TD目标，

称为TD偏差。

时间差分方法分为同策略Sarsa方法和异策略Q-learning方法。

异策略Q-learning方法的伪代码如下^[1]：

异策略伪代码

贪婪策略（

）：

,当

时表示有90%的概率选取最大动作值，有10%随机选取动作值。

首先需要随机选取一个状态

，在根据

贪婪策略选择动作a，选择之后以状态

为起始状态，然后重复选择下一状态，直到出现终止状态。下一状态

由状态

和动作a确定，动作值函数由公式 :

直到值函数收敛，然后根据策略：

确定最终策略。根据博客

^[2]hadxu：极简Qlearning教程（附Python源码）zhuanlan.zhihu.com

中的例子，由matlab实现代码如下：

1.异策略-Q-learning

function

同策略伪代码

同策略Sarsa算法和异策略Q-learning算法的主要区别是评估策略的确定方式不同，在Q-learning算法中，评估策略是通过贪心算法的思想得到的，即在求解动作值函数时使用公式：

由公式可以看出下一状态的动作值函数是选取最大的（

），而在同策略sarsa中，其下一状态的动作也是通过

贪婪策略得到。具体matlab代码如下：

2.同策略-sarsa算法^[3]

function

参考

^^a^b蒙特卡洛方法 https://zhuanlan.zhihu.com/p/25743759
^Q-learning实现 https://zhuanlan.zhihu.com/p/29213893
^sarsa算法 https://zhuanlan.zhihu.com/p/29283927

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模