深度强化学习 # DDPG

Deep Deterministic Policy Gradient (DDPG)前置基础：policy gradientDDPG是一种Actor-Critic结构。基于PARL实现DDPGReferencehttps://www.bilibili.com/video/BV1yv411i7xd?p=18https://mofanpy.com/tutorials/machine-learning/r

真·skysys

2026人浏览 · 2021-12-12 01:14:08

真·skysys · 2021-12-12 01:14:08 发布

前置基础：
Deep Q Network
Policy gradient
Actor Critic

DPG:Deterministic Policy Gradient
DDPG: Google DeepMind 提出的一种使用 Actor Critic 结构, 但是输出的不是行为的概率, 而是具体的行为的值, 用于连续动作 (continuous action) 的预测。
优点：DDPG可以在连续动作上更有效的学习，DDPG 结合了 DQN 结构, 提高了 Actor Critic 的稳定性和收敛性。
基础的Actor-Critic不是确定性策略梯度，是随机策略梯度，输出的还是行为的概率。

DPG：确定性策略梯度
我们把输出行为的概率变成直接输出行为的值，所以这里的行为是确定性的，并且输出的是连续的值（可以解决DQN解决不了的连续问题）。

DDPG是一种Actor-Critic结构。

但是在AC结构的基础上采用的experience replay和fixed q-target技巧（这里的fix技巧还固定了一个策略网络）
DDPG输出的是确定性策略，DDPG中的Critic在更新计算TD差分值时，使用到了目标策略网络Actor的输出。

有人说一个fix q-target技巧算什么创新，你要是实际去做过实验就知道了，DDPG和朴素的AC方法（REINFORCE算法）的收敛效率差的贼多…
这是个很实用的创新。

同时，为了解决确定性策略的Exploration和策略更新的稳定性问题，还增加了随机量和soft-replace。具体算法伪代码如下所示：

算法第八行中的 $N_t$ 就是为解决策略Exploration所添加的随机量；
第十行这里就是存储每步的状态，为后面update中使用经验回放作准备。
算法最后两行，就是soft-replace部分，不是完全更新，而是只更新网络中很小的一部分τ \tauτ，按照算法中的介绍，需要满足条件： $\tau<<1$

基于PARL实现DDPG

Reference

https://www.bilibili.com/video/BV1yv411i7xd?p=18
https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/intro-DDPG/
关于DPG\DDPG数学部分：基础算法篇（七），确定性策略的DPG与DDPG

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。