作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程,希望对大家能有所帮助。这个系列后面会不断更新,希望自己在2021年能保证平均每日一更的更新速度,主要是介绍强化学习的基础知识,后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的,后面发现大家上CSDN主要是来提问的,就把很多拆分开来了(而且这样每天任务量也小一点哈哈哈哈偷懒大法)。但是我还是希望知识点能成系统,所以我在目录里面都好按章节系统地写的,而且在github上写成了书籍的形式,如果大家觉得有帮助,希望从头看的话欢迎关注我的github啊,谢谢大家!另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏,很早以前就和小伙伴们花了很多精力写的,如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊!可能会有很多错漏,希望大家批评指正!不要高估一年的努力,也不要低估十年的积累,与君共勉!

on-policy 和off-policy

​ 首先,我们来区分一下Behavior Policy(行为策略) 和Target Policy(目标策略):

  • 行为策略是用来与环境交互产生数据的策略,即在训练过程中实际做决策;

  • 而目标策略是通过行为策略采集得到的数据来进行不断地优化、学习的策略,当然,每隔一段时间行为策略会更新成目标策略来保证我们是用优化后的策略来与环境进行交互。

    那么为什么要有两个策略呢?这就是为了解决我们前面讲到的强化学习中的探索与利用的问题:我们可以利用行为策略来保证探索性,提供多样化的数据;而不断地优化目标策略来保证利用。

    On-policy 的目标策略和行为策略是同一个策略,其好处就是简单粗暴,直接利用枚举就可以优化其策略, 但这样的处理会导致策略其实是在学习一个局部最优, 因为On-policy的策略没办法很好地同时保持即探索又利用; 而Off-policy将目标策略和行为策略分开,可以在保持探索的同时, 能求到全局最优值。但其难点在于:如何在一个策略下产生的数据来优化另外一个策略? 也可以从Buffer(数据缓冲区)的层面来理解On-policy和Off-policy的不同:off-policy是将缓冲区数据每次采样出一部分,而on-policy可以看做一次性将缓冲区中所有数据采集出来并删除

online和offline

​ 注意这两个概念和on-policy与off-policy完全没有关系。

  • 在线学习:边玩边学—可能第一关你还没过,你已经学到了不少有用的技术;

  • 离线学习:你没头没脑地(没有学习)玩着游戏,等第一关过了或者死了,然后你仰天长叹,在脑海中回顾着刚刚发生的一切,在这个过程中回顾并学习更新着自己的策略p(action|state),专业一点的解释可以看这篇推文

deterministic and stochastic
  • Deterministic: given a state, the policy returns a certain action to take:给定一个状态,策略只会返回一个固定的动作。
  • Stochastic: given a state, the policy returns a probability distribution of the actions (e.g., 40 % 40 \% 40% chance to turn left, 60 % 60 \% 60% chance to turn right) or a certain Gaussian distribution for continuous action。给定一个状态,策略会返回一个动作的分布,比如以40%的概率向左走,60%的概率向右走。常用的分布有用于离散动作空间的类别分布(Categorical Distribution)、用于连续动作空间的对角高斯分布(Diagonal Gaussian Distribution)。
  • A deterministic policy is easily beaten。一个确定性的策略是很容易输的,比如你和同学玩斗地主,每次你都一个炸之后留一张3在手里,那肯定多玩几次你同学看到你只剩一张牌是不会让你走的。

上一篇:强化学习的学习之路(五)_2021-01-05:强化学习中的Exploration和Exploitation、Planning和Learning、Prediction和Control

下一篇:强化学习的学习之路(七)_2021-01-07:强化学习中的Gym

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐