强化学习常用算法的分类
模型未知的强化学习方法包括:蒙特卡洛学习,TD学习,Q学习,SARSA学习,Dyna框架,直接策略学习和Actor-Critic方法。根据Bellman方程,通过策略迭代和策略评估交替进行,求取最优策略。3)值函数迭代方法。通过一种逐次逼近方式,将有限时段的动态规划算法推广到无限时段上。在模型已知的情况下,采用动态规划的方法来寻找最优的策略。常用的动态规划方法有四种。近似强化学习的基本方法,包括带
·
强化学习常用算法分类
在模型已知的情况下,采用动态规划的方法来寻找最优的策略。常用的动态规划方法有四种
1) 线性规划方法。根据Bellman方程,将值函数的求取转换为一个线性规划问题求解
2)策略迭代方法。根据Bellman方程,通过策略迭代和策略评估交替进行,求取最优策略
3)值函数迭代方法。通过一种逐次逼近方式,将有限时段的动态规划算法推广到无限时段上。
4)广义策略迭代方法。结合策略迭代和值迭代的一种强化学习方法。
模型未知的强化学习方法包括:蒙特卡洛学习,TD学习,Q学习,SARSA学习,Dyna框架,直接策略学习和Actor-Critic方法
近似强化学习的基本方法,包括带值函数TD学习、近似策略迭代和最小二乘策略迭代。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)