登录社区云,与社区用户共同成长
邀请您加入社区
强化学习中对连续动作的定义究竟是怎样?这个问题困扰我很久,我觉得有两层理解:1、动作的选择范围是连续区间,当前的动作与后续的动作之间并无关联,能够直接进行离散跳跃式的选择;2、动作的选择范围是连续区间,前面的动作与后面的动作之间是连续过渡,而不能离散跳跃。到底是哪个咯?...
强化学习中对连续动作的定义究竟是怎样?这个问题困扰我很久,我觉得有两层理解: 1、动作的选择范围是连续区间,当前的动作与后续的动作之间并无关联,能够直接进行离散跳跃式的选择; 2、动作的选择范围是连续区间,前面的动作与后面的动作之间是连续过渡,而不能离散跳跃。
到底是哪个咯?
今天觉得这个问题不重要了…未来拿着代码将动作结果print一下应该就可以了吧~
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要
计算机视觉(opencv)实战三十二——CascadeClassifier 人脸微笑检测(摄像头)
本文从原理到实现,详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测:讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图,帮助理解执行过程。给出了常见问题和优化建议,甚至扩展到深度学习方法。这种方法简单、轻量、实时性好,非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性,建议使用深度学习检测器替代 Haar 分类器。
小杰机器学习(seven)——贝叶斯分类
扫一扫分享内容
所有评论(0)