PPO(proximal Policy Optimization)

On-policy Off-policy

  • On-policy:跟环境互动的agent 和 要learn的agent是同一个
  • Off-policy:跟环境互动的agent 和 要learn的agent不是同一个

为什么需要Off-Policy

  • On-policy中每用一个policy gradient 就需要重新sample 一次data

  • 使用Off-policy可以用另一个actor sample 一次data 这个actor就可以用这个data policy gradient很多次

在这里插入图片描述

Important Sampling

  • 当两个actor sample出来的data 分布不一样的时候 需要引入一个修正项

  • 这里p分布为学习的actor q分布为被学习的actor、

在这里插入图片描述

Off-policy的gradient

在这里插入图片描述

PPO

  • off-policy
  • 增加一项衡量两个actor的相似度 希望两个actor越像越好

在这里插入图片描述

  • 算法流程

    • 被learn的actor sample一组数据后learn的actor更新多次参数后 被learn的actor再次sample

在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐