强化学习笔记：Q-learning

本文整理于datawhalechina.github.io的强化学习教程以及莫烦python强化学习教程这篇写短点吧，要是在写长的话动辄几个小时，顶不住啊QAQ0x01 简介

PenguinLeee

1572人浏览 · 2021-05-21 21:30:14

PenguinLeee · 2021-05-21 21:30:14 发布

本文整理于datawhalechina.github.io的强化学习教程以及莫烦python强化学习教程

这篇写短点吧，要是再写长的话动辄几个小时，真的顶不住了

0x01 简介

在这里插入图片描述
在强化学习中， $Qπ(s,a)Q^\pi(s, a)$ ，简记为 $Q (s, a)$ ，是指在状态 $s$ 下，当前步采取策略 $a$ ，接下来所有的步骤都依据给定的策略 $π\pi$ 来决策直到回合结束所获得的回报的期望值。

为了使得reward最大，这里agent的策略 $π\pi$ 可以认为是在当前的状态 $s$ 下，无脑选择使得 $Qπ(s,a)Q^\pi(s, a)$ 最大的 $a$ 。

上图是Q-learning的算法流程图。给定agent的策略 $π\pi$ ，我们要通过这么一个算法更新 $Qπ(s,a)Q^\pi(s, a)$ ，简记为 $Q (s, a)$ 。为了使收益最大，agent在每一个状态 $s$ 将无脑选择 $Qπ(s,a)Q^\pi(s, a)$ 值最大的动作 $a$ 。

假设环境状态为 $s$ ，Q-learning的做法是：

首先，根据当前的 $s$ 选择一个动作 $a$ ，这个动作 $a$ 的选择策略是 $ϵ−greedy\epsilon-greedy$ ，即大概率选择使得 $Q (s, a)$ 的值（这时 $Q (s, a)$ 还没有被训练好）达到最大的 $a^*$ ，但是会有 $ϵ\epsilon$ 的概率来随机选择一个动作 $a$ 。

接着，我们选取了动作 $a$ 之后，就可以采取 $a$ ，然后获得奖励 $r$ ，并且到达下一个状态 $s^{'}$ 。

下面，更新 $Q (s, a)$ ：

$\alpha) Q(s,a) + \alpha (r + \gamma \max_{a'} Q(s', a') )$

其中 $α\alpha$ 是学习率， $γ\gamma$ 是折扣因子。假设我们完全随机地初始了 $Q (s, a)$ 值，但是我们在后来的更新中，逐渐引入了每一步的收益 $r$ 。并且，因为学习率 $α\alpha$ 的存在，之前的初始项会被慢慢稀释掉，由 $r$ 组成的 $Q (s, a)$ 值留存的越来越多。

最后，重复上面的动作， $Q (s, a)$ 值逐渐收敛。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

提升Angular2-HN性能的7个实用技巧：让新闻加载速度飞起来

Angular2-HN是一款基于Angular构建的Progressive Hacker News客户端，专为追求高效新闻浏览体验的用户设计。本文将分享7个实用技巧，帮助你优化Angular2-HN的性能，让新闻加载速度显著提升，带来更流畅的阅读体验。## 1. 启用Service Worker缓存关键资源Service Worker是提升Angular应用性能的强大工具，它可以在后台缓存