（RL强化学习）PPO

文章目录PPO(proximal Policy Optimization)On-policy Off-policy为什么需要Off-PolicyImportant SamplingOff-policy的gradientPPOPPO(proximal Policy Optimization)On-policy Off-policyOn-policy：跟环境互动的agent 和要learn的agen

Hoyyyaard

551人浏览 · 2022-03-30 23:12:14

Hoyyyaard · 2022-03-30 23:12:14 发布

文章目录

PPO(proximal Policy Optimization)

PPO(proximal Policy Optimization)

On-policy Off-policy

On-policy：跟环境互动的agent 和要learn的agent是同一个
Off-policy：跟环境互动的agent 和要learn的agent不是同一个

为什么需要Off-Policy

On-policy中每用一个policy gradient 就需要重新sample 一次data
使用Off-policy可以用另一个actor sample 一次data 这个actor就可以用这个data policy gradient很多次

在这里插入图片描述

Important Sampling

当两个actor sample出来的data 分布不一样的时候需要引入一个修正项
这里p分布为学习的actor q分布为被学习的actor、

在这里插入图片描述

Off-policy的gradient

在这里插入图片描述

PPO

off-policy
增加一项衡量两个actor的相似度希望两个actor越像越好

在这里插入图片描述

算法流程
- 被learn的actor sample一组数据后learn的actor更新多次参数后被learn的actor再次sample

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。