本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Policy Networks

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Behavior Cloning

在这里插入图片描述
在这里插入图片描述

  • Behavior cloning: 是一种模仿学习,模仿学习和强化学习的主要区别在于:有没有奖励
    没有奖励就是模仿学习,有奖励是强化学习

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

behavior cloning其实就是多分类,有361个类,其中label就是人类的下法。

在这里插入图片描述

如果策略网络没有见过 a t a_t at,策略网络就无法识别,就会失效。因此下一步 a t + 1 a_{t+1} at+1就会更奇怪。

Train policy network using Policy gradient

在这里插入图片描述

  • player: 根据reward来更新policy network
    强化学习用奖励来更新网络
    模仿学习没有奖励

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Train the value network

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Mente Carlo Tree Search

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐