状态转移概率:在St时刻选择了At动作转移到St+1而且拿到Rt的概率

 马尔科夫决策过程:

这个属于model-base

 这个属于model-free

 

 用价值函数V来代表这个状态是好的还是坏的

用Q函数来表示在什么状态下,拿到什么动作能够获得最大的奖励

 

Q表格先初始化为0

 

举个实际的物理意义

 

 

 时序差分数学公式:

 

 

 

 

 

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐