深度强化学习 Deep Q-learning：把深度学习引入强化学习

（例如向左或向右、向上或向下）。Atari 的《Breakout》展示了一个具有离散动作空间的环境。AI 代理可以向左或向右移动；每个方向的移动都有一定的速度。如果智能体能够确定。

小鱼爱吃喵

844人浏览 · 2025-12-25 18:05:24

小鱼爱吃喵 · 2025-12-25 18:05:24 发布

- Deep Q-learning 引言
- Deep Q-learning

参考：Deep Q-Learning in Reinforcement Learning
A Deep Dive Into Deep Q-Learning

深度学习中最突出的成就大多源自深度强化学习，例如谷歌的 Alpha Go 在围棋比赛中击败了当时世界上最优秀的人类选手。这位棋手输给了 DeepMind 的 AI 代理，这些代理能够自学行走、奔跑并克服障碍。自 2014 年起，其他 AI 代理在玩老式 Atari 游戏时已超越人类。
在这里插入图片描述

Deep Q-learning 引言

Deep Q-learning 是一种利用 深度学习 帮助机器在 复杂情境 中 做出决策 的方法。它在状态数量极大的环境中尤为有效，例如视频游戏或机器人领域。

Q-learning 在 小规模问题 上表现良好，但在图像或 大量可能情形 等复杂问题上会捉襟见肘。
Deep Q-learning 通过使用 神经网络 来 估计价值，而不是使用庞大的表格，从而解决了这一问题。

Deep Q-learning 用于编写在 离散动作空间环境 中操作的 AI 代理。离散动作空间指的是具体且 定义明确的动作（例如向左或向右、向上或向下）。

Atari 的《Breakout》展示了一个具有离散动作空间的环境。AI 代理可以向左或向右移动；每个方向的移动都有一定的速度。
在这里插入图片描述
如果智能体能够确定速度，那么它就可以拥有连续的动作空间，拥有 无限多可能的动作（包括不同速度的移动）。

Deep Q-learning

Deep Q-learning 是一种强化学习算法，源自 Q-learning 算法。它使用深度神经网络来近似 AI 代理在给定状态下（或每个状态-动作对）的 每个可能动作的 $Q$ 值。不同于使用 $Q$ 表存储 $Q$ 值的标准 Q-learning ——深度 Q-learning 使用 深度神经网络，使 AI 代理能够处理 大规模 或 连续的状态空间。

Neural Network

网络近似 Q 值函数 $Q(s,a;\theta)$ ，其中 $\theta$ 代表 可训练的参数。

例如，在游戏中，输入可能是来自游戏画面的原始像素，输出则是对应每个可能动作的 $Q$ 值向量。
Experience Replay

为了稳定训练，DQNs 将 过去的经验 $(s, a, r, s')$ 存储在 回放缓冲区 中。在训练过程中，从缓冲区中 随机抽取小批量经验，打破连续经验之间的相关性，并提升泛化能力。
Target Network

使用具有参数 $\theta^-$ 的单独目标网络在更新期间计算目标 $Q$ 值。目标网络会定期使用主网络的权重进行更新，以确保稳定性。
Loss Function

损失函数度量预测的 $Q$ 值与目标 $Q$ 值之间的差异

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模