《强化学习（第2版）》阅读笔记

2.9 关联搜索（上下文相关的赌博机） …2.7 基于置信度上界的动作选择 …1.7 强化学习的早期历史 …2.1 一个k臂赌博机问题 …2.5 跟踪一个非平稳问题 …1.4 局限性与适用范围 …1.5 扩展实例：井字棋 …2.2 动作-价值方法 …2.3 10臂测试平台 …2.8 梯度赌博机算法 …1.3 强化学习要素 …2.4 增量式实现 …2.6 乐观初始值 …2.10 本章小结 …1.6

songyuc

299人浏览 · 2024-07-28 21:31:12

songyuc · 2024-07-28 21:31:12 发布

目录	页码
第1章导论	1
1.1 强化学习	1
1.2 示例	4
1.3 强化学习要素	5
1.4 局限性与适用范围	7
1.5 扩展实例：井字棋	8
1.6 本章小结	12
1.7 强化学习的早期历史	13
第I部分表格型求解方法	23
第2章多臂赌博机	25
2.1 一个k臂赌博机问题	25
2.2 动作-价值方法	27
2.3 10臂测试平台	28
2.4 增量式实现	30
2.5 跟踪一个非平稳问题	32
2.6 乐观初始值	34
2.7 基于置信度上界的动作选择	35
2.8 梯度赌博机算法	37
2.9 关联搜索（上下文相关的赌博机）	40
2.10 本章小结	41
第3章有限马尔可夫决策过程	45
3.1 “智能体-环境”交互接口	45
3.2 目标和收益	51
3.3 回报和分幕	52
3.4 分幕式和持续性任务的统一表示法	54
3.5 策略和价值函数	55
3.6 最优策略和最优价值函数	60
3.7 最优性和近似算法	65
3.8 本章小结	66

常见术语词

书中翻译	英文术语
幕	episode

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。