强化学习待解决问题和主流Trick整理

文章目录一、待解决问题二、DRL主流Trick2.1 主流Trick应用场景2.1 序贯决策导致的非独立同分布问题2.2 Policy随Target震荡而震荡问题2.3 Target过估计从而影响策略问题2.4 数据采样效率问题三、典型DRL算法总结四、典型DRL算法致谢一、待解决问题序号待解决问题进一步理解产生原因本质1非独立同分布数据使神经网络难以收敛由于训练分布完全依赖于序贯决策样本，导致训

SL_World

1777人浏览 · 2021-05-15 21:59:08

SL_World · 2021-05-15 21:59:08 发布

文章目录

一、四大待解决问题

序号	待解决问题	进一步理解	产生原因	本质
1	`非独立同分布`数据使神经网络难以收敛	由于训练分布完全依赖于序贯决策样本，导致训练出的数据分布局部化，即不同于完整状态-动作空间分布	序贯探索决策中有些动作频繁被执行，而有些动作几乎从不会被采样	采样数据分布
2	不断更新的目标使得每次得到的策略也在变化	`policy`随`target`震荡而震荡	由于`target`的估计不可避免地存在误差，导致`policy`的更新出现震荡	`target`估计不准
3	异构的过估计对策略产生不良影响	过估计会使Q表或神经网络参数w误差更大，从而影响策略	`Bellman optimailty Eq`中的`max`操作在实际迭代时由于估计不准而出现`Maximization Bias`	`target`估计不准
4	对于全状态-动作空间的采样效率低	更优的采样方法决定以`更少的采样频率`采样到`更完整的空间分布`	没有基于历史采样的全部信息作出采样规划	采样数据分布

在这里插入图片描述

二、DRL主流Trick

序号	Trick	切入点	缓解问题	应用场景	备注
1	经验回放	采样方式	①非独立同分布	DQN	仅`Off-policy`
2.1	并行探索(回传梯度)	采样方式	①非独立同分布	A3C	`Off/On-policy`
2.2	并行探索(回传经历)	采样方式	①非独立同分布	DPPO/IMPALA	同上
3	分离`target`网络	延迟`target`更新	② `target`与`policy`的更新震荡	DQN	同上
4	延迟`policy`更新	延迟`policy`更新	② `target`与`policy`的更新震荡	TD3	同上
5	受限`policy`更新	`policy`在信赖域中更新	② `target`与`policy`的更新震荡	TRPO/PPO	同上
6	`clip`重要性采样率`ρ`	受限重要性采样率	② `target`与`policy`的更新震荡	PPO	仅`Off-policy`
7	Double Q	`target`中的动作选择	③ `target`过估计	DDQN/DDPG
8	Bounded Double Q	`target`最优动作下界	③ `target`过估计	TD3/SAC
9	Action Distribution	`target`中的动作选择	③ `target`过估计	DSAC
10.1	正则化策略熵	策略的探索性	④ 采样效率	A3C
10.2	值函数引入策略熵	策略的探索性	④ 采样效率	SAC
11	`Prioritized Sweeping`	优先级采样	④ 采样效率	PER-DQN
12	连续动作+`Noise`	连续动作估值泛化性		Noise DQN/DDPG/TD3
13	`Advantage`函数	减小方差		Dueling DQN/TRPO/A3C/PPO
14	`n-step TD Learing`	平衡方差与偏差		PPO
15	资格迹	`累计`值函数`梯度`实现`Online`化

主流Trick应用场景

以下不一定全面，部分可能有遗忘

序号	Trick	DQN	DDQN	Dueling DQN	Noise DQN	PER DQN	DDPG	TD3	TRPO	PPO	DPPO	IMPALA	A3C	SAC	DSAC
1	经验回放	√	√	√	√	√	√	√						√	√
2.1	并行探索 (回传梯度)												√
2.2	并行探索 (回传经历)										√	√
3	分离`target`网络	√	√	√	√	√	√	√						√	√
4	延迟`policy`更新							√							√
5	受限`policy`更新								√	√	√
6	`clip`重要性采样率`ρ`									√	√
7	`Double Q`		√				√	√						√
8	`Bounded` `Double Q`							√						√
9	`Action Distribution`														√
10.1	正则化策略熵												√
10.2	值函数引入策略熵													√	√
11	`Prioritized Sweeping`					√
12	连续动作+`Noise`				√		√	√
13	`Advantage`函数			√						√	√		√
14	`n-step TD Learing`									√	√
15	资格迹

在这里插入图片描述

2.1 序贯决策导致的非独立同分布问题

【产生原因】序贯探索决策中有些动作频繁被执行，而有些动作几乎从不会被采样。由于训练分布完全依赖于序贯决策样本，导致训练出的数据分布局部化，即与完整状态-动作空间分布不同

在这里插入图片描述

【Trick 1】经验回放

每次episode，相当于采样每个agent的完整经历，每个agent的经历不同，不同agent的完整经历可视为一个局部分布
而经验回放机制就是随机抽取某个agent的某个经历，从而采样到更近似完整state-action空间的分布

在这里插入图片描述

【Trick 2】并行探索

在这里插入图片描述

2.2 Policy随Target震荡而震荡问题

【产生原因】：由于Target的估计不可避免地存在误差，导致Policy的更新出现震荡
在这里插入图片描述

【Trick 3】分离target网络（主要缓解target震荡更新导致的policy震荡问题）

背景：target的估计误差，随迭代时间增长而大概率逐渐降低
target的估计尤其在迭代初期存在较大误差，不如先让其训练一阶段再更新，从而缓解策略震荡问题
本质：延迟target更新

【Trick 4】延迟policy更新

【Trick 5】受限policy更新

动机：由于在策略梯度中，更新策略参数θ，采用线搜索先选方向后选步长，容易选出次优步长，导致更新较差策略，恶性循环。而通过信赖域方法，先确定步长，再确定方向可保证单调性策略变优

【Trick 6】裁剪重要性采样率ρ

Off-policy采用的Improtance Sampling ratio不稳定，所以PPO采用Clip操作避免因为ratio分子或分母由于采样有限出现极端数字，导致比率过大或过小，遂采用剪裁Clip把ratio限制在[1 - epsilon, 1 + epsilon]中，增加稳定性

在这里插入图片描述

2.3 Target过估计从而影响策略问题

【产生原因】： Bellman optimailty Eq中的max操作在实际迭代时由于估计不准而出现最大化偏差(Maximization Bias)

$Q_{target}(s,a) = R + \max_{a'} Q(s',a')$
在这里插入图片描述

【Trick 7】 Double Learning思想，本质为按动作分布选取动作，缓解实际迭代中因估计不准而错误地将次优动作Q值作为target的估值带来的偏差问题
在这里插入图片描述

【Trick 7】有界Double Q

在这里插入图片描述

两者的区别如下图，说白了就是宁愿低估，也不愿高估。但这种trick对该问题的缓解很有限，治标不治本

左图—Double Q
右图—Bounded Double Q，对于target的估计更加保守

【Trick 9】按动作价值分布选取动作，个人理解与Double Q本质相同，但该方法直击本质
在这里插入图片描述

2.4 数据采样效率问题

【产生原因】：没有基于历史采样的全部信息作出采样规划

①agent需记录历史采样过程形成采样地图
②均匀采样

【Trick 10】正则化熵：即用策略熵来度量策略的随机性，由于我们希望采样过程中agent尽可能采样到全空间中更多的信息，因此我们更希望agent采样过程中注重探索性采样，即策略的不确定性越大则采样信息越全。为此在RL总目标函数上，我们在累计奖赏基础上加上策略的熵，以希望agent执行更多探索性的动作，采样到更全面的信息

【Trick 11】在每个状态的值函数上增加策略熵
在这里插入图片描述

三、典型DRL算法总结

在这里插入图片描述

四、典型DRL算法

在这里插入图片描述

致谢

感谢李升波教授开设的强化学习课程和PPT

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。