本篇仅记录学习笔记。

强化学习方法起源于动物心理学的相关原理,模仿人类和动物学习的试错机制,是一种通过与环境交互,学习状态到行为的映射关系,以获得最大累积期望汇报的方法。

1 强化学习的主要组成

  • 智能体
    • 策略
    • 值函数
    • 模型
  • 环境

强化学习、监督学习与非监督学习

机器学习实际上有三大分类:监督学习、非监督学习和强化学习。

2 强化学习的分类

根据是否建立环境动力学的模型划分为模型方法和无模型方法。

根据不同的估计方法可以把强化学习方法分为基于值函数的方法、基于策略的方法和行动者-评论家方法。

  • 基于值函数的方法,求解时候仅估计状态值函数,如动态规划方法、蒙特卡罗方法、时序差分方法、值函数逼近法等。
  • 基于策略的方法则直接通过求解策略函数产生,包括蒙特卡罗策略梯度、时序差分策略梯度等。
  • 行动者-评论家方法是二者的结合。

3 强化学习的重要概念

3.1 学习与规划

3.2 探索与利用

3.3 预测与控制

制作软件 : • GitMind  点击可全平台使用

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐