《强化学习(第2版)》阅读笔记
2.9 关联搜索(上下文相关的赌博机) …2.7 基于置信度上界的动作选择 …1.7 强化学习的早期历史 …2.1 一个k臂赌博机问题 …2.5 跟踪一个非平稳问题 …1.4 局限性与适用范围 …1.5 扩展实例:井字棋 …2.2 动作-价值方法 …2.3 10臂测试平台 …2.8 梯度赌博机算法 …1.3 强化学习要素 …2.4 增量式实现 …2.6 乐观初始值 …2.10 本章小结 …1.6
·
目录
目录 | 页码 |
---|---|
第1章 导论 | 1 |
1.1 强化学习 | 1 |
1.2 示例 | 4 |
1.3 强化学习要素 | 5 |
1.4 局限性与适用范围 | 7 |
1.5 扩展实例:井字棋 | 8 |
1.6 本章小结 | 12 |
1.7 强化学习的早期历史 | 13 |
第I部分 表格型求解方法 | 23 |
第2章 多臂赌博机 | 25 |
2.1 一个k臂赌博机问题 | 25 |
2.2 动作-价值方法 | 27 |
2.3 10臂测试平台 | 28 |
2.4 增量式实现 | 30 |
2.5 跟踪一个非平稳问题 | 32 |
2.6 乐观初始值 | 34 |
2.7 基于置信度上界的动作选择 | 35 |
2.8 梯度赌博机算法 | 37 |
2.9 关联搜索(上下文相关的赌博机) | 40 |
2.10 本章小结 | 41 |
第3章 有限马尔可夫决策过程 | 45 |
3.1 “智能体-环境”交互接口 | 45 |
3.2 目标和收益 | 51 |
3.3 回报和分幕 | 52 |
3.4 分幕式和持续性任务的统一表示法 | 54 |
3.5 策略和价值函数 | 55 |
3.6 最优策略和最优价值函数 | 60 |
3.7 最优性和近似算法 | 65 |
3.8 本章小结 | 66 |
常见术语词
书中翻译 | 英文术语 |
---|---|
幕 | episode |

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)