1. 简介

TPO算法虽然应用起来效果很好,但是计算量很大。PPO算法对TPO算法的求解进行了优化,简化了求解方法,使用局部最优解代替全局最优解。

2. PPO方法的两种形式

(1)PPO-惩罚

使用拉格朗日系数放找到局部最优解,拉格朗日系数法可以将约束放在优化目标中,从而只求解优化目标即可

(2)PPO-截断

PPO截断则是人为定义新旧策略的差值的最大最小值

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐