Imitation learning

  • actor 可以跟环境互动,actor无法从环境得到reward

  • 只有一个expert论证怎么解决这个问题

  • 人为设定reward可能造成不可控的问题
    在这里插入图片描述

Bahavior Cloning

  • expert做什么 actor就做什么

  • 相当于监督学习 training data需要搜集(s,a)的信息 然后让actor learn 一个Network

在这里插入图片描述

  • 但expert只能sample 限量的(s,a),当actor遇到expert没有遇到的问题将会不知道怎么做
    在这里插入图片描述

  • 所以需要Dataset Aggregation

    • 给定一个actor跟环境互动 actor每一步获得的observation都会问expert怎么做 但是这个actor不会听从expert的指令
    • 得到一些新的(s,a)成为新的training data
      在这里插入图片描述
  • expert可能会有多余的动作 希望actor能够只学到必要的东西 而不是expert多余的动作(对接下来没有影响的动作)

在这里插入图片描述

Inverse Reinforcement Learning

  • Mismatch
    • 监督学习中训练集和测试集分布不一样
    • IRL可解决这个问题

在这里插入图片描述

  • IRL
    • 拥有expert反推reward function
    • 得出来的reward function可能会是很简单的

在这里插入图片描述

Framework

  • Expert sample data ;Actor sample data

  • reward function原则;expert得到的分数比actor得到的高

  • 根据得出来的reward function就可以得到一个actor

  • 然后重新定义reward function 继续learn actor

在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐