强化学习(MDP-Q表格)
状态转移概率:在St时刻选择了At动作转移到St+1而且拿到Rt的概率马尔科夫决策过程:这个属于model-base这个属于model-free用价值函数V来代表这个状态是好的还是坏的用Q函数来表示在什么状态下,拿到什么动作能够获得最大的奖励Q表格先初始化为0举个实际的物理意义时序差分数学公式:...
·
状态转移概率:在St时刻选择了At动作转移到St+1而且拿到Rt的概率
马尔科夫决策过程:
这个属于model-base

这个属于model-free
用价值函数V来代表这个状态是好的还是坏的
用Q函数来表示在什么状态下,拿到什么动作能够获得最大的奖励



Q表格先初始化为0

举个实际的物理意义


时序差分数学公式:

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐




所有评论(0)