强化学习【chapter0】-学习路线图
主要总结一下西湖大学赵老师的课程【强化学习的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili1️⃣基础阶段(Ch1-Ch7):掌握表格型算法,理解TD误差与贝尔曼方程2️⃣进阶阶段(Ch8-Ch9):动手实现DQN/策略梯度,熟悉PyTorch/TensorFlow3️⃣前沿阶段(Ch10:阅读论文(OpenAI Spinning Up / RLlib文档)Chapter 1
前言:
主要总结一下西湖大学赵老师的课程
【强化学习的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili
1️⃣ 基础阶段(Ch1-Ch7):掌握表格型算法,理解TD误差与贝尔曼方程
2️⃣ 进阶阶段(Ch8-Ch9):动手实现DQN/策略梯度,熟悉PyTorch/TensorFlow
3️⃣ 前沿阶段(Ch10: 阅读论文(OpenAI Spinning Up / RLlib文档)
Chapter 1:基础概念【Basic Concepts】
学习内容:核心术语与问题定义
知识点:
-
State(状态)、Action(动作)、Reward(奖励) -
Return(回报)、Episode(回合)、Policy(策略)、Env(环境) -
经典示例:网格世界(Grid-World)
Chapter 2:状态值-贝尔曼方程【 State Values and Bellman Equation】
学习内容:强化学习的数学框架
知识点:
-
马尔可夫性质、状态转移矩阵
-
折扣因子(γ)、贝尔曼方程
-
最优策略的存在性证明
Chapter 3:最优状态值和最优贝尔曼方程( Optimal State Values and Bellaman Optimality Equation】
学习内容:基于模型的基础算法
知识点:
-
策略评估(Policy Evaluation)
-
策略改进定理(Policy Improvement Theorem)
Chapter 4:经典规划算法【 Value Iteration and Policy Iteration】
学习内容:求解最优策略的三大方法
知识点:
-
值迭代(Value Iteration):迭代更新价值函数
-
策略迭代(Policy Iteration):策略评估+策略改进
-
截断策略迭代(Truncated PI):效率优化版
-
⚠️ 依赖环境模型(需已知状态转移概率)
Chapter 5:蒙特卡洛方法【 Monte Carlo Methods】
学习内容:无模型学习入门
知识点:
-
基于回合的奖励采样
-
首次访问与每次访问MC
-
ε-贪婪策略探索
Chapter 6:【Stochastic Approximation】
学习内容:在线增量学习
知识点:
-
TD(0) 算法:
V(s) ← V(s) + α[r + γV(s') - V(s)] -
偏差-方差权衡(对比MC)
Chapter 7:表格型TD算法【Temporal-Differece Methods】
学习内容:经典无模型控制
知识点:
-
SARSA:On-policy TD控制,更新
Q(s,a) -
Q-Learning:Off-policy TD控制,更新最优动作值
-
✅ 关键区分:
-
On-policy(行为策略=目标策略) -
Off-policy(行为策略≠目标策略,如Q-learning)
-
Chapter 8:函数逼近与非表格方法【 Value Function Methods】
学习内容:处理高维状态空间
知识点:
-
值函数逼近(VFA):
min J(w) = E[(v(S) - v̂(S,w))^2] -
SARSA with VFA
-
Q-learning with VFA
-
Deep Q-Network (DQN):
-
经验回放(Experience Replay)
-
目标网络(Target Network)
-
-
💡 意义:神经网络引入使RL适用于真实场景
Chapter 9:策略梯度方法【 Policy Gradient Methods】
学习内容:从值函数到策略优化
知识点:
-
策略参数化:
π(a|s; θ) -
REINFORCE算法:蒙特卡洛策略梯度
-
Actor-Critic框架:结合值函数与策略
Chapter 10:高级深度强化学习【Actor-Critic Methods】
学习内容:混合方法与前沿技术
知识点:
-
A3C:异步并行Actor-Critic
-
PPO:近端策略优化(约束策略更新)
-
SAC:柔性Actor-Critic(熵正则化)
-
多智能体RL:竞争与合作场景
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)