强化学习：值迭代和策略迭代

~hello world~

1121人浏览 · 2023-05-22 16:17:17

~hello world~ · 2023-05-22 16:17:17 发布

值迭代

在这里插入图片描述
通过上一章的学习，我们知道了贝尔曼最优方程的求解实际上分两部分，一是给定一个初始值 $v_k$ 找到最优策略 $π_{k+1}$ ，二是更新 $v_{k+1}$

下面，我们将详细剖析这个算法，以及其编程实现。首先，我们来看一下他的第一步：策略更新
在这里插入图片描述
通过给定的 $v_k$ 可以求得每个状态对应的 $q_k$ 再根据概率设计得到最优策略下对应的行为 $a_k^*(s)$

第二步：值更新，同样的，通过给定的 $v_k$ 求得每个状态对应的 $q_k$ 再根据最优策略计算得到 $v_{k+1}$
在这里插入图片描述
通过上面的讲解，我们得到下面的流程过程：

给出上述算法的伪代码，如下：

值迭代：案例

我们以一个例子加深理解。 $r_{边界}=r_{陷阱}=-1，r_{终点}=+1，γ=0.9$

在这里插入图片描述

当 $k = 0$
在这里插入图片描述

策略迭代

策略迭代分两步：策略评估 $(PE)$ 和策略优化 $(P I)$ 。
在这里插入图片描述

求解 $v_{πk}$ 有两种方法，第一种矩阵求解一般不用，主要是用第二种迭代的方法。
在这里插入图片描述

策略迭代具体步骤如下：
在这里插入图片描述

伪代码如下：
在这里插入图片描述

策略迭代：案例

同样，我们以一个例子加深理解。 $r_{边界}=-1，r_{终点}=+1，γ=0.9$ ，行为有：向左 $a_l$ ，向右 $a_r$ ，原地 $a 0$
在这里插入图片描述

在这里插入图片描述

策略迭代：案例二

在这里插入图片描述

截断策略迭代算法

首先我们来比较一下值迭代与策略迭代的区别：
在这里插入图片描述

在这里插入图片描述
伪代码：

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。