目录

目录 页码
第1章 导论 1
   1.1 强化学习 1
   1.2 示例 4
   1.3 强化学习要素 5
   1.4 局限性与适用范围 7
   1.5 扩展实例:井字棋 8
   1.6 本章小结 12
   1.7 强化学习的早期历史 13
第I部分 表格型求解方法 23
第2章 多臂赌博机 25
   2.1 一个k臂赌博机问题 25
   2.2 动作-价值方法 27
   2.3 10臂测试平台 28
   2.4 增量式实现 30
   2.5 跟踪一个非平稳问题 32
   2.6 乐观初始值 34
   2.7 基于置信度上界的动作选择 35
   2.8 梯度赌博机算法 37
   2.9 关联搜索(上下文相关的赌博机) 40
   2.10 本章小结 41
第3章 有限马尔可夫决策过程 45
   3.1 “智能体-环境”交互接口 45
   3.2 目标和收益 51
   3.3 回报和分幕 52
   3.4 分幕式和持续性任务的统一表示法 54
   3.5 策略和价值函数 55
   3.6 最优策略和最优价值函数 60
   3.7 最优性和近似算法 65
   3.8 本章小结 66

常见术语词

书中翻译 英文术语
episode
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐