AI学习01 《强化学习》学习笔记-第一章 强化学习概述
本篇仅记录学习笔记。强化学习方法起源于动物心理学的相关原理,模仿人类和动物学习的试错机制,是一种通过与环境交互,学习状态到行为的映射关系,以获得最大累积期望汇报的方法。1 强化学习的主要组成智能体策略值函数模型环境强化学习、监督学习与非监督学习机器学习实际上有三大分类:监督学习、非监督学习和强化学习。2 强化学习的分类根据是否建立环境动力学的模型划分为模型方法和无模型方法。根据不同的估计方法可以把
·
本篇仅记录学习笔记。
强化学习方法起源于动物心理学的相关原理,模仿人类和动物学习的试错机制,是一种通过与环境交互,学习状态到行为的映射关系,以获得最大累积期望汇报的方法。
1 强化学习的主要组成
- 智能体
- 策略
- 值函数
- 模型
- 环境
强化学习、监督学习与非监督学习
机器学习实际上有三大分类:监督学习、非监督学习和强化学习。
2 强化学习的分类
根据是否建立环境动力学的模型划分为模型方法和无模型方法。
根据不同的估计方法可以把强化学习方法分为基于值函数的方法、基于策略的方法和行动者-评论家方法。
- 基于值函数的方法,求解时候仅估计状态值函数,如动态规划方法、蒙特卡罗方法、时序差分方法、值函数逼近法等。
- 基于策略的方法则直接通过求解策略函数产生,包括蒙特卡罗策略梯度、时序差分策略梯度等。
- 行动者-评论家方法是二者的结合。
3 强化学习的重要概念
3.1 学习与规划
3.2 探索与利用
3.3 预测与控制
制作软件 : • GitMind 点击可全平台使用

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)