一文总结：强化学习算法——强化学习中的 Transformer

该图展示了训练强化学习代理的高级流程。代理从环境中获取状态和奖励，并据此决定采取哪些行动。强化学习与机器学习和深度学习的区别在于训练结构。广义上讲，强化学习是指训练一个代理（或模型）在特定环境中执行特定任务。与监督学习等更常见的深度学习和机器学习方法不同，强化学习使用奖励而非损失。奖励可以有效地理解为代理在整个训练过程中学习最大化的值。如何分配奖励可以有无数种形式，并且是许多领域的一个活跃研究领域

yyyyyybw

1480人浏览 · 2025-05-29 19:44:47

yyyyyybw · 2025-05-29 19:44:47 发布

Transformer 架构席卷深度学习领域已不是什么秘密。在自然语言处理、时间序列预测和计算机视觉任务等领域，Transformer 的应用场景非常广泛，几乎几乎无所不能。强化学习是深度学习中 Transformer 应用较慢的一个领域。尽管这种情况正在迅速改变，但它在深度学习领域一直是一个顽固分子。在这篇综述中，我将重点探讨 Transformer 在这个深度学习子领域中的优缺点，并讨论目前基于Transformer 的强化学习的成功案例。

【强化学习入门到进阶教程，戳蓝字即可学习】

这才是科研人该学的！一口气学完强化学习【PPO、Q-learning、DQN、A3C】五大算法，基础入门到实验分析，太通俗易懂了！机器学习|深度学习|计算机视觉

强化学习简介

该图展示了训练强化学习代理的高级流程。

代理从环境中获取状态和奖励，并据此决定采取哪些行动。

强化学习与机器学习和深度学习的区别在于训练结构。广义上讲，强化学习是指训练一个代理（或模型）在特定环境中执行特定任务。与监督学习等更常见的深度学习和机器学习方法不同，强化学习使用奖励而非损失。奖励可以有效地理解为代理在整个训练过程中学习最大化的值。如何分配奖励可以有无数种形式，并且是许多领域的一个活跃研究领域。

一个简单的例子就是接球游戏。如果为正确的行为（例如，捡回球）分配奖励，代理在执行任务时将获得 +1，否则将获得 0。然后，该奖励将用于学习在特定环境中采取行动。代理的策略是执行如何行动决策的逻辑。该策略的训练会导致训练中使用的逻辑在在线策略模型和离线策略模型之间出现分歧。

无需过多赘述，主要区别在于模型的训练方式。在策略模型通过直接评估其在环境中的策略来学习。然后，根据其在各种场景中获得的奖励来更新相同的策略。这些模型在训练期间通常更稳定，但样本效率较低。我们稍后会详细讨论的一些例子是近端策略优化 (PPO)、信赖域策略优化 (TRPO) 和演员评论家 (A2C)模型。

相反，离策略模型从导航环境的策略间接学习其策略。这些模型通常使用两个策略：一个策略采取行动，另一个策略估计所采取行动的奖励。好处是样本效率更高的训练周期，但代价是训练稳定性。一些标准的离策略模型是深度 Q 网络 (DQN)、深度确定性策略梯度 (DDPG) 和软演员评论家 (SAC)。这两种风格之间的差异可能看似不直观，但实际上它们各自擅长不同的环境。例如，在机器人技术中，在线策略网络更有可能实现机器人肢体的平滑控制目标。同时，如果环境的奖励稀疏（即在分配奖励之前必须采取许多动作），那么离线策略网络更有可能成为合适的选择。这一切都取决于模型如何利用数据，以及对不同方法引入的变化的敏感性。

强化学习的当前局限性

在讨论 Transformer 在强化学习中的作用之前，了解这项技术当前存在的问题非常重要。这些挑战包括但不限于维数、环境可观测性和信用分配。您可以想象，具有少量离散状态的特定任务（例如井字游戏）建模相对较高效。其他任务涉及许多连续状态，例如控制机器人关节，需要更多的资源来建模。这通常被称为维数灾难。特定模型（例如算法 Q 学习模型）无法有效扩展（或根本无法扩展）连续任务。

任务或环境的维数越高，这些模型的性能越差。这个问题在医疗诊断、机器人和金融等多变量环境中普遍存在。环境的可观测性也是强化学习模型中的一个重要错误来源；更明确地说，部分观察到的环境是出了名的难以学习。环境可观测性仅仅是做出决策所需的数据总量与模型可用数据百分比之间的差异。完全可观测的环境可能类似于国际象棋，其中所有棋子都完全在模型的视野范围内。无需任何缺失数据即可决定下一步行动。

相比之下，部分可观测的环境可能类似于扑克，其中模型获得了自己的牌，但无法访问其他玩家的牌。部分可观测的环境往往需要更大的容量来存储先前的状态或历史背景，以便做出明智的行动。最后，信用分配问题是训练中常见的瓶颈，当模型在采取一系列复杂的行动后获得奖励时。回到国际象棋的例子，哪一步应该被认为是赢得比赛的功劳？是第一步还是最后一步吃掉王？信用分配再次受益于整个游戏过程中状态的整合，从而更好地理解和衡量所采取的行动。这些问题有许多潜在的解决方案，其中许多是造成大量架构差异的原因。但毋庸置疑，最佳解决方案的答案仍然是一个悬而未决的问题。

Transformer 对强化学习的贡献

既然我们已经讨论了强化学习目前的局限性，那么基于 Transformer 的强化学习方法有何不同？它又将如何着手应对这些挑战呢？首先，对于不熟悉 Transformer 架构的人来说，其核心能力在于每个 Transformer 头部都内置的注意力机制。

这种注意力机制使 Transformer 能够同时关注输入的所有部分。再加上多个“头部”，这一过程得以并行化。因此，Transformer 可以学习长时间间隔内生成的数据的强大表征。

相比之下，其他能够学习趋势的模型则类似地以顺序方式进行学习。这些模型包括 LSTM 或 GRU 等。这些方法的缺点是它们容易在更长的时间序列中遗忘信息，从而将重要的上下文信息排除在决策过程之外。现在，回到我们之前讨论的局限性。

Transformer 能够关注复杂的时间序列并从中学习，这使其在强化学习中具有独特的优势。 Transformer 中使用的多头注意力机制有助于改善我们在上一节中讨论的许多问题。

首先，从维度灾难开始，Transformer 原生支持复杂的高维数据。Transformer 能够泛化到各种任务，例如自然语言处理 (NLP)、计算机视觉和时间序列分析，这已得到证实。在每个头中使用深度嵌入结构并结合注意力机制，即使与其他时间序列模型相比，也能显著提高学习效率。多头特性进一步增强了这种能力，允许每个头学习数据中的独立特征。这些机制对于提升在部分观察环境中的性能至关重要。

同样，由于注意力机制的作用，模型可以关注并从先前的操作中学习复杂的趋势。这使得 Transformer 在复杂环境中应对不确定情况时具有优势。同样，Transformer 的信用分配也变得更容易。由于注意力机制也具有位置编码功能，模型可以更深入地学习导致特定奖励的趋势。将其与多个头结合起来，基于 Transformer 的强化学习从环境奖励结构中学习复杂关系的能力得到极大提高。

Transformer 在强化学习中的当前应用

一些项目已经成功地用 Transformer 取代了更常见的架构。本节将深入探讨一些在各种强化学习环境中使用 Transformer 的著名案例，这些案例运用这种方法解决了一些新颖的问题。

离线强化学习

论文《决策转换器：通过序列建模进行强化学习》中的一张图，突出显示了决策转换器所使用的架构。图中，R 表示用于调节模型的返回值。

第一个重大贡献体现在离线强化学习领域。这种名为决策变换器 (DT) 的新方法由谷歌团队提出，旨在改进离线强化学习。离线强化学习一直以来对模型来说都极具挑战性，因为由于数据的静态特性，模型探索新环境情境的能力显著下降。DT 将变换器与一种颠倒强化学习策略相结合，试图尽可能有效地学习静态环境。

DT 使用一种自回归 GPT 风格的解码器变换器，其任务是预测下一步动作。由于采用了颠倒强化学习方法，模型会使用状态、先前动作和“返回执行值”进行训练。“返回执行值”是指智能体在当前状态下可以预期获得的未来奖励的观测值。在推理时，可以使用这个“返回执行值”来调节模型以寻求该奖励。例如，在乒乓球的基准测试中，如果 DT 的返回值设为 21（乒乓球的最高分），它的表现会比将返回值设置得更低时好得多。

这种方法还有一个额外的好处，就是通过降低返回值，可以在推理时控制代理的行为。事实证明，DT 在 Atari、mini-grid 和 key-to-door 等基准测试中可以匹敌甚至超越其他最先进的方法。DT 在功能上有一些局限性。

也就是说，它似乎对静态数据集中不良演示的适应能力较弱。也就是说，仅使用随机游走类型样本训练 DT 可能会产生比其他模型更差的结果。

上下文窗口长度如何影响 DT 在诸如 key-to-door 等稀疏奖励任务上的表现也不清楚。如果稀疏奖励的长度始终在上下文长度以内，则该模型在其他任务上的表现可能不如论文中所说的那么稳健。

部分可观察环境的 Transformers

深度 Transformer Q 网络的架构图，摘自题为“用于部分可观察强化学习的深度 Transformer Q 网络”的论文。

Esslinger 等人在论文《用于部分可观察强化学习的深度 Transformer Q 网络》中提出了强化学习的另一项关键工作。该工作提出用变压器取代更常见的基于 RNN 的 Q 网络模型，从而创建一个新的架构，他们称之为深度 Transformer Q 网络 (DTQN)。正如我们之前所述，基于 RNN 的解决方案往往在长时间序列中保持上下文方面存在局限性，这会对其决策能力产生负面影响。DTQN 使用解码器变压器结合标准 Q 学习方法，显著提升了在部分可观察环境中的导航能力。DTQN 通过在缓冲区中积累训练样本，以离线策略的方式进行训练。然后对缓冲区进行采样，以确保变压器在不同的训练样本上进行训练，并通过多次采样某些经验来高效利用每次训练运行。最终，变压器网络能够学习预测给定特定状态下各种动作（Q 值）的质量。

在Transformer中使用多头自注意力机制增强了Q学习方法，因为它提供了更丰富的过去动作和观察背景，使模型能够学习更准确的Q值。同时，贝尔曼方程通过将当前奖励与对未来最佳奖励的估计相结合，进一步完善了这一过程。

这种组合有助于模型有效地学习采取任何给定动作的真实价值。本文将他们的方法与各种基准进行了比较，包括循环深度Q网络（DRQN）、原始深度Q网络（DQN）和简单注意力网络（ATTN）。DTQL网络在几乎所有测试用例中都表现优于其他模型。这凸显了将Q学习方法与Transformer架构相结合的优势。

基于 Transformer 的强化学习的应用

机器人技术

机器人领域一直是强化学习算法发展不可或缺的一部分。复杂的多变量问题与相对高精度模拟这些环境的能力相结合，使得该领域非常适合强化学习解决方案。随着机器人环境中的数据日益丰富，标准的强化学习模型要么无法泛化，要么耗费过多的计算资源，无法成为高效的解决方案。本文中举例说明了基于 ViT 的 DQN 在自动驾驶场景中的应用。

Kargar 等人在其论文《用于在复杂和动态环境中学习驾驶策略的视觉转换器》中对 ViT 和基于 ResNet 的 DQN 强化学习自动驾驶方法变体进行了训练效率和性能比较。

本文将 Transformer 与 ResNet 等其他架构进行了比较，并探讨了在针对更具体的强化学习目标进行训练之前，在无关数据集（本例中为 ImageNet）上对策略进行静态预训练的概念。

论文发现，对 ResNet 和 ViT 变体进行预训练可以改善强化学习中的策略结果，并且 ViT 在总回合奖励方面的表现优于 ResNet 和 ResNet-DINO（预训练变体）。

ViT 在测试期间产生的崩溃次数也显著少于 ResNet 或 ResNet-DINO 策略。进一步证明了 Transformer 在强化学习中的有效性，ViT 模型的训练样本效率大约是 ResNet DQN 模型的 3 倍，其中 ResNet-DINO 需要 6000 回合才能达到与 2000 回合训练的 ViT-DINO 相当的性能。

药品

由于医学的纵向性和复杂性，Transformer 已成为探索表格、视觉和基于信号数据的热门工具。虽然强化学习在医学研究中尚处于起步阶段，但 Transformer 强化学习算法已在该领域取得了一些有趣的应用。Chen 等人提出的 DxFormer 模型正被用于通过复杂的病史收集来改进医学诊断。该模型与我们讨论过的其他模型不同，它在常见的 REINFORCE 策略梯度算法的基础上，同时使用了编码器和解码器 Transformer 来实现这一目标。该模型将与效价和位置相关的症状序列作为输入，然后使用解码器 Transformer 与 REINFORCE 算法相结合，学习需要针对哪些症状进行后续提问。这反过来又训练了一个模型，使其能够根据患者的症状获取更丰富的病史信息。完成症状询问后，模型将这些症状传递给 Transformer 编码器，该编码器根据给定的症状生成诊断和置信区间。该方法优于其他强化学习方法，包括 DQN 的许多变体。 Xiong 等人的另一项研究名为“用于医学图像字幕的强化 Transformer”，旨在通过强化学习而非更传统的图像字幕方法来改进标准的医学图像标注。在他们的研究中，他们采用了带有 REINFORCE 算法的自我批评式强化学习。

Xiong 等人的论文“用于医学图像字幕的强化变换器”的输出示例。

将生成文本的奖励与地面真值的 CIDEr 分数进行比较，以更新策略。这与教师强制等其他方法的不同之处在于，它依赖于自回归解码器变压器的反复试验，并结合策略梯度损失来更新解码器。研究表明，这种方法在实践中将医学图像的 BLEU-1 分数提高了 50%。

语言建模

我们已经看到了一些结合使用 Transformer 和强化学习进行语言建模的例子，但这仅仅是冰山一角。强化学习越来越多地应用于各个语言建模阶段，以生成最优输出。这最常应用于训练后阶段，以帮助模型与人类偏好保持一致。最值得注意的是，OpenAI 的欧阳等人所做的工作充分展现了这些技术的威力。

在他们的论文《训练语言模型以遵循人类反馈的指令》中，欧阳等人首次展示了强化学习用于人类反馈 (RLHF) 的全部威力。该论文的研究结果表明，增加模型规模并不能提高指令遵循率，但如果应用近端策略梯度技术使模型与人类偏好保持一致，则效果会更好。

该论文甚至指出，在训练 GPT 类模型的训练后阶段加入 RLHF，可以使 15 亿参数的 GPT 模型在人工评估中胜过 1750 亿参数的模型。 RLHF 的加入也降低了模型的毒性输出并提高了模型的真实性。

强化学习中 Transformer 的缺点

尽管 Transformer 取得了令人鼓舞的成果，但它远非强化学习领域的灵丹妙药。该架构存在许多限制，可能导致学习到的策略结果不理想。第一个限制是 Transformer 的计算成本。尽管其注意力机制非常强大，但却是以巨大的计算量为代价的。根据 Agarwal 等人的研究，随着注意力网络的上下文窗口变长，计算的复杂度呈二次方增长。这意味着稀疏奖励问题仍然存在，具体取决于可用的计算资源。这进一步限制了能够承载具有长上下文窗口的强化学习模型的设备。以自动驾驶汽车为例。即使是这样的汽车，如果没有多个 GPU，也可能不具备准确建模环境所需的计算能力。

Agarwal 等人提出的另一个限制是，与卷积网络或残差神经网络相比，Transformer 模型的感应偏差相对较小。例如，与 CNN 相比，ViT 等 Transformer 不会假设像素的空间重要性，而是选择学习接近度的重要性。类似地，在残差网络中，与 Transformer 相比，模型假设其处理的数据具有因果顺序（或至少是连续顺序），并在评估时间序列时再次学习这些趋势。可以使用位置编码将一些感应偏差重新引入 Transformer，但这与其他架构的感应偏差不同。这反过来又使 Transformer 更加灵活，同时大大增加了模型有效学习所需的数据量。

结论

随着最先进的架构不断突破可能性的界限，强化学习正迎来激动人心的时代。自然语言处理 (NLP) 与机器人技术日益增长的交叉融合尤其令人期待，它为过去难以想象的创新解决方案打开了大门。随着这些领域的融合，只有时间才能揭示塑造智能系统未来的下一个突破。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

所有评论(0)

查看更多评论

yyyyyybw

@yyyyyybw

已为社区贡献20条内容