强化学习（MDP-Q表格）

状态转移概率：在St时刻选择了At动作转移到St+1而且拿到Rt的概率马尔科夫决策过程：这个属于model-base这个属于model-free用价值函数V来代表这个状态是好的还是坏的用Q函数来表示在什么状态下，拿到什么动作能够获得最大的奖励Q表格先初始化为0举个实际的物理意义时序差分数学公式：...

陌路wt

674人浏览 · 2021-07-13 16:10:45

陌路wt · 2021-07-13 16:10:45 发布

状态转移概率：在St时刻选择了At动作转移到St+1而且拿到Rt的概率

马尔科夫决策过程：

这个属于model-base

这个属于model-free

用价值函数V来代表这个状态是好的还是坏的

用Q函数来表示在什么状态下，拿到什么动作能够获得最大的奖励

Q表格先初始化为0

举个实际的物理意义

时序差分数学公式：

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

cover

工业物联网时序数据库选型指南：Apache IoTDB 技术架构与实战解析

cover

面向未来的工业大数据架构：时序数据库（TSDB）选型避坑指南和国产化思考

cover

基于springboot框架会议室预约网站管理系统设计与实现

所有评论(0)

查看更多评论

陌路wt

已为社区贡献1条内容