【强化学习】PPO算法
TPO算法虽然应用起来效果很好,但是计算量很大。PPO算法对TPO算法的求解进行了优化,简化了求解方法,使用局部最优解代替全局最优解。
·
1. 简介
TPO算法虽然应用起来效果很好,但是计算量很大。PPO算法对TPO算法的求解进行了优化,简化了求解方法,使用局部最优解代替全局最优解。
2. PPO方法的两种形式
(1)PPO-惩罚
使用拉格朗日系数放找到局部最优解,拉格朗日系数法可以将约束放在优化目标中,从而只求解优化目标即可

(2)PPO-截断
PPO截断则是人为定义新旧策略的差值的最大最小值

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)