基于“蘑菇书”的强化学习知识点（七）：什么是时序差分方法

什么是时序差分方法

墨绿色的摆渡人

1096人浏览 · 2025-02-07 00:55:52

墨绿色的摆渡人 · 2025-02-07 00:55:52 发布

什么是时序差分方法

摘要

本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析！具体内容请阅读蘑菇书EasyRL！

对应蘑菇书EasyRL——3.3.2 时序差分

1. 强化学习中的时序差分方法（Temporal Difference, TD）

（1）什么是强化学习中的时序差分方法？

时序差分（Temporal Difference, TD）方法是一类用于 估计值函数 的强化学习算法。它结合了动态规划（Dynamic Programming, DP） 和 蒙特卡洛方法（Monte Carlo, MC） 的优点，同时不需要完整的回合数据即可进行学习。

在强化学习中，我们的目标是找到最优策略 $\pi^*$ ，使得智能体在与环境交互的过程中获得最大的累积奖励。而在策略评估过程中，我们通常需要估计 状态值函数 或 状态-动作值函数：

状态值函数（State Value Function）
$V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t R_{t+1} \mid S_0 = s \right]$
状态-动作值函数（State-Action Value Function）
$Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t R_{t+1} \mid S_0 = s, A_0 = a \right]$

其中：

$S_t$ 是时间步 $t$ 时智能体所处的状态
$A_t$ 是时间步 $t$ 时采取的动作
$R_{t+1}$ 是采取动作后的即时奖励
$\gamma \in [0,1]$ 是折扣因子（表示未来奖励的重要程度）

（2）蒙特卡洛方法 vs. 时序差分方法

蒙特卡洛方法（Monte Carlo, MC）

蒙特卡洛方法通过 完整的一次轨迹 来计算值函数的估计值。公式如下：
$V(S_t) \leftarrow V(S_t) + \alpha \left( G_t - V(S_t) \right)$
其中：

$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots$ 是从时间步 $t$ 开始的累积奖励（回报）
$\alpha$ 是学习率

但是，蒙特卡洛方法的缺点是：

必须等到一整个回合结束后 才能更新值函数，无法用于非终止状态的学习。
高方差，因为它依赖于完整轨迹，不同的采样会产生较大的波动。

时序差分方法（Temporal Difference, TD）

时序差分方法是一种 不需要等待整个回合结束就能更新值函数 的方法。它的核心思想是：

通过当前状态的估计值 来更新自身，而不依赖完整的回报。

TD 方法的更新公式为：
$V(S_t) \leftarrow V(S_t) + \alpha \left( R_{t+1} + \gamma V(S_{t+1}) - V(S_t) \right)$

其中：

$R_{t+1}$ 是下一步的即时奖励
$V(S_{t+1})$ 是下一个状态的值函数估计
$R_{t+1} + \gamma V(S_{t+1})$ 这一项称为 TD 目标（TD Target）
$R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$ 这一项称为 TD 误差（TD Error）

相比蒙特卡洛方法，TD 方法的优点是：

可以在线更新，不需要等待回合结束
方差较小，因为它是基于一步预测，而不是整个回报

举例：
假设有一个简单的回合：

$S_0 = A$
采取动作 $A_0$ ，到达 $S_1 = B$ ，得到奖励 $R_1 = 10$
采取动作 $A_1$ ，到达 $S_2 = C$ ，得到奖励 $R_2 = 5$
终止状态， $G_0 = 10 + 5 = 15$

在 蒙特卡洛方法 中：

只有当整个回合结束后，才能使用 $G_0 = 15$ 来更新 $V (A)$

在 时序差分方法 中：

可以直接在 $t = 0$ 处更新 $V (A)$ ：
$\leftarrow V(A) + \alpha (10 + \gamma V(B) - V(A))$
这使得学习过程更高效，适用于持续任务（continuing tasks）。

（3）TD(0)、TD(λ) 和 Q-learning

TD(0)

只使用当前时间步的 TD 误差进行更新，直接依赖 $V(S_{t+1})$ 。
公式：
$V(S_t) \leftarrow V(S_t) + \alpha \left( R_{t+1} + \gamma V(S_{t+1}) - V(S_t) \right)$

TD(λ)

结合 TD(0) 和蒙特卡洛方法，使用资格迹（Eligibility Trace） 来权衡不同时间步的信息。

Q-learning

时序差分方法的一种特殊形式，更新的是 状态-动作值函数 $Q (s, a)$ 。
公式：
$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \left( R_{t+1} + \gamma \max_{a} Q(S_{t+1}, a) - Q(S_t, A_t) \right)$
适用于最优策略学习。

2. 自举（Bootstrapping）

自举（Bootstrapping） 是强化学习中的一个核心概念，指的是：

使用当前的估计值来更新自身，而不是等待真实值。

在时序差分方法中，我们通过 $V(S_{t+1})$ 来估计 $V(S_t)$ ，但 $V(S_{t+1})$ 也是一个估计值，这就是自举的核心。

（1）为什么要用自举？

减少计算开销
- 直接计算真实回报 $G_t$ 可能很耗时，而 TD 方法可以 逐步更新，避免等待整个轨迹完成。
可以处理无终止任务
- 蒙特卡洛方法必须等到回合结束，而自举方法可以在非终止状态更新，使得强化学习可以用于持续任务。

（2）自举 vs. 非自举

方法	是否使用自举	依赖完整回报
蒙特卡洛方法	❌ 不自举	✅ 需要完整回报
时序差分方法（TD）	✅ 自举	❌ 只依赖局部回报
动态规划	✅ 自举	❌ 依赖状态转移模型

总结

时序差分（TD）方法 是强化学习中的一种策略评估方法，结合了动态规划和蒙特卡洛方法的优点。
TD 方法不需要等待回合结束，而是使用 $V(S_{t+1})$ 作为估计值进行更新，这就是自举（Bootstrapping）。
Q-learning 是一种基于时序差分的强化学习方法，用于学习最优策略。
自举使得 TD 方法比蒙特卡洛方法更高效，适用于在线学习和持续任务。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r