强化学习的代码格式
强化学习
·
def update():
while True:
#fresh env
env.render()
#RL choose action based on observation
action = RL.choose_action(str(observation))
#Rl take action and get next observation and reward
observation_,reward,done = env.step(action)
#RL learn from this transition
Rl.learn(str(observation),action,reward,str(observation_))
#swap observation
observation = observation_
#break while loop when end of this episode
if done:
break
#end of game
print("game over")
env.destroy()

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)