强化学习笔记: backup diagram
backup diagram(备份图),图示的关系构成了更新或备份操作的基础,而这些操作是强化学习方法的核心。这些操作将价值信息从一个状态(或状态-动作对)的后继状态(或状态-动作对)转移回来。1 Value function的备份图我们这里有两层加和:第一层加和就是这个叶子节点,往上走一层的话,我们就可以把未来的价值(状态s'的价值) backup 到黑色的节点。即:第二层加和是对 action
·
backup diagram(备份图),图示的关系构成了更新或备份操作的基础,而这些操作是强化学习方法的核心。
这些操作将价值信息从一个状态(或状态-动作对)的后继状态(或状态-动作对)转移回来。
1 Value function的备份图

我们这里有两层加和:
- 第一层加和就是这个叶子节点,往上走一层的话,我们就可以把未来的价值(状态s'的价值) backup 到黑色的节点。即:
- 第二层加和是对 action 进行加和。得到黑色节点的价值过后,再往上 backup 一层,就会推到根节点的价值,即当前状态的价值。即:【我action和s是一轮的,所以不用乘γ)
两式结合,有:
这个式子用Bellman Expectation Equation也可以推导出来
2 Q function的备份图

我们这里也有两个加和:
- 第一层加和是先把这个叶子节点从黑色节点推到这个白色的节点,进了它的这个状态。即:
- 当我们到达某一个状态过后,再对这个白色节点进行一个加和,这样就把它重新推回到当前时刻的一个 Q 函数。即:
两式结合,有:
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐







所有评论(0)