Reinforce Learning Concept Flow Chart (强化学习概念流程图)

它的核心是无后效性（Memorylessness），未来的状态仅依赖于当前状态和动作，与“过去的状态/动作序列”无关。当没有状态，只有一组最初未知奖励的可用动作时，这个问题就是经典的多臂老虎机（multi-armed bandit problem）。在每个特定时间点，智能体从环境结构一些观测（observation），并且必须选择一个动作（action），然后通过某种机制（有时称为执行器）将其传输

EmmauelZ

447人浏览 · 2026-01-31 19:20:14

EmmauelZ · 2026-01-31 19:20:14 发布

在强化学习中，智能体（agent）在一系列的事件步骤上与环境交互。在每个特定时间点，智能体从环境结构一些观测（observation），并且必须选择一个动作（action），然后通过某种机制（有时称为执行器）将其传输回环境，最后智能体从环境中得到奖励（reward）。注意，强化学习的目标是产生一个好的策略（policy）。强化学习智能体选择的“动作”受策略控制，即从一个环境观测映射到动作的功能。

当环境可被完全观测到时，强化学习问题被称为马尔可夫决策过程（Markov Decision Process）。它的核心是无后效性（Memorylessness），未来的状态仅依赖于当前状态和动作，与“过去的状态/动作序列”无关。这种性质让MDP的计算变得可行，它无需存储历史信息。当状态不依赖之前的动作时，我们称该问题为上下文老虎机（contextual bandit problem）。当没有状态，只有一组最初未知奖励的可用动作时，这个问题就是经典的多臂老虎机（multi-armed bandit problem）。

如下图所示：
请添加图片描述
参考文献：
[1] 《动手学深度学习PyTorch版》
[2] www.alphachain.net.cn

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模