20191220

强化学习中对连续动作的定义究竟是怎样?这个问题困扰我很久,我觉得有两层理解:
1、动作的选择范围是连续区间,当前的动作与后续的动作之间并无关联,能够直接进行离散跳跃式的选择;
2、动作的选择范围是连续区间,前面的动作与后面的动作之间是连续过渡,而不能离散跳跃。

到底是哪个咯?

20200310

今天觉得这个问题不重要了…未来拿着代码将动作结果print一下应该就可以了吧~

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐