【强化学习】PPO算法

TPO算法虽然应用起来效果很好，但是计算量很大。PPO算法对TPO算法的求解进行了优化，简化了求解方法，使用局部最优解代替全局最优解。

xingxinbg · 2024-10-15 00:10:45 发布

TPO算法虽然应用起来效果很好，但是计算量很大。PPO算法对TPO算法的求解进行了优化，简化了求解方法，使用局部最优解代替全局最优解。

（1）PPO-惩罚

使用拉格朗日系数放找到局部最优解，拉格朗日系数法可以将约束放在优化目标中，从而只求解优化目标即可

（2）PPO-截断

PPO截断则是人为定义新旧策略的差值的最大最小值

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

「极限压缩量化未来」Modelers GeekDay上海站圆满落幕

查看更多评论

已为社区贡献3条内容

温馨提示：您尚未绑定手机号