AI学习01 《强化学习》学习笔记-第二章 马尔科夫决策过程
马尔科夫决策过程是基于马尔科夫过程理论的随机动态系统的最优决策过程。如果某一状态信息蕴含了所有相关的历史信息,只要当前状态可知,所有的历史信息都不再需要,即当前状态可以决定未来,则认为该状态具有马尔可夫性。凡是具有马尔可夫性的的过程都成为马尔可夫过程。马尔可夫决策过程是针对具有马尔可夫性的随机过程序贯地做出决策。一个决策过程由五元组成: ,分别表示环境的状态集合、智能体的动作集合、状态转移概率、回
书读百遍,不如CSDN上写一遍。公式太多,选择性记忆,先做知识搬运工,再做知识的总结工,才能做知识的创造工。
仅记录个人学习笔记,供学习交流使用,图片来源于配套课件材料。
马尔科夫决策过程是基于马尔科夫过程理论的随机动态系统的最优决策过程。
2.1 马尔科夫基本概念
如果某一状态信息蕴含了所有相关的历史信息,只要当前状态可知,所有的历史信息都不再需要,即当前状态可以决定未来,则认为该状态具有马尔可夫性。
凡是具有马尔可夫性的的过程都成为马尔可夫过程。
马尔可夫决策过程是针对具有马尔可夫性的随机过程序贯地做出决策。
一个决策过程由五元组成: ,分别表示环境的状态集合、智能体的动作集合、状态转移概率、回报函数和衰减系数。
2.2 贝尔曼方程
贝尔曼方程也称为动态规划方程,是求解马尔可夫决策过程问题时候用到的最基础方程。
贝尔曼期望方程:(1)基于状态s,采取动作a,求取 ; (2)采取行为a,状态转变至s',求取
; (3) 基于状态s,采取行为a,状态转变至s',求取
; (4) 采取行为a,状态转变至s',采取行为a',求取
贝尔曼最优方程
2.3 最优策略
寻找最优的策略π。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)