强化学习常见面试题：近端策略优化（proximal policy optimization，PPO）算法

使用另外一种分布，来逼近所求分布的一种方法，算是一种期望修正的方法，公式如下：我们在已知qqq的分布后，可以使用上式计算出从ppp分布的期望值。也就可以使用qqq来对ppp进行采样了，即重要性采样。因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。作为一个普通人，无法全部学完，所以我们在提升技术的时候，首先需要明确一个目标，然后制定好完整的计划，同时找到好的学习方法，这样才能更

小城哇哇

1681人浏览 · 2024-08-06 09:52:45

小城哇哇 · 2024-08-06 09:52:45 发布

1.核心词汇

同策略（on-policy）：要学习的智能体和与环境交互的智能体是同一个时对应的策略。
异策略（off-policy）：要学习的智能体和与环境交互的智能体不是同一个时对应的策略。
重要性采样（important sampling）：使用另外一种分布，来逼近所求分布的一种方法，在强化学习中通常和蒙特卡洛方法结合使用，公式如下：
$KaTeX parse error: Undefined control sequence: \[ at position 91: …x=E\_{x \sim q}\̲[̲f(x){\frac{p(x)…$
我们在已知 $q$ 的分布后，可以使用上式计算出从 $p$ 这个分布采样 $x$ 代入 $f$ 以后得到的期望值。
近端策略优化（proximal policy optimization，PPO）：避免在使用重要性采样时由于在 $θ\theta$ 下的 $KaTeX parse error: Expected 'EOF', got '\right' at position 34: …a\_{t} | s\_{t}\̲r̲i̲g̲h̲t̲)$ 与在 $θ′\theta '$ 下的 $p_θ′(a_t∣s_t)p\_{\theta'}\left(a\_{t} | s\_{t}\right)$ 相差太多，导致重要性采样结果偏差较大而采取的算法。具体来说就是在训练的过程中增加一个限制，这个限制对应 $θ\theta$ 和 $θ′\theta'$ 输出的动作的KL散度，来衡量 $θ\theta$ 与 $θ′\theta'$ 的相似程度。

2.常见问题汇总

2.1 基于同策略的策略梯度有什么可改进之处？或者说其效率较低的原因在于什么？

经典策略梯度的大部分时间花在数据采样上，即当我们的智能体与环境交互后，我们就要进行策略模型的更新。但是对于一个回合我们仅能更新策略模型一次，更新完后我们就要花时间重新采样数据，然后才能再次进行如上的更新。

所以我们可以使用异策略的方法，即使用另一个不同的策略和演员，与环境进行交互并用所采样的数据进行原先策略的更新。这样等价于使用同一组数据，在同一个回合，我们对整个策略模型更新了多次，这样会更加有效率。

2.2 使用重要性采样时需要注意的问题有哪些？

我们可以在重要性采样中将 $p$ 替换为任意的 $q$ ，但是本质上要求两者的分布不能差太多，即使我们补偿了不同数据分布的权重 $p(x)q(x)\frac{p(x)}{q(x)}$ 。 $KaTeX parse error: Undefined control sequence: \[ at position 14: E\_{x \sim p}\̲[̲f(x)\]=E\_{x \s…$ ，当我们对于两者的采样次数都比较多时，最终的结果会是较为接近的。但是通常我们不会取理想数量的采样数据，所以如果两者的分布相差较大，最后结果的方差将会很大。

2.3 基于异策略的重要性采样中的数据是从 $θ′\theta'$ 中采样出来的，从 $θ\theta$ 换成 $θ′\theta'$ 有什么优势？

使用基于异策略的重要性采样后，我们不用 $θ\theta$ 与环境交互，而是由另外一个策略 $θ′\theta'$ 进行示范。 $θ′\theta'$ 的任务就是示范给 $θ\theta$ 看，它和环境交互，告诉 $θ\theta$ 它与环境交互会发生什么事，以此来训练 $θ\theta$ 。我们要训练的是 $θ\theta$ ， $θ′\theta'$ 只负责做示范，负责与环境交互，所以采样出来的数据与 $θ\theta$ 本身是没有关系的。所以就可以让 $θ′\theta'$ 与环境交互采样大量数据， $θ\theta$ 可以更新参数多次。一直到 $θ\theta$ 训练到一定的程度、参数更新多次以后， $θ′\theta'$ 再重新采样，这就是同策略换成异策略的妙处。

2.4 在本节中近端策略优化中的KL散度指的是什么？

本质来说，KL散度是一个函数，其度量的是两个动作（对应的参数分别为 $theta\\theta$ 和 $theta′\\theta'$ ）间的行为距离，而不是参数距离。这里的行为距离可以理解为在相同状态下输出动作的差距（概率分布上的差距），概率分布即KL散度。

3.面试必知必答

3.1 友善的面试官：请问什么是重要性采样呀？

使用另外一种分布，来逼近所求分布的一种方法，算是一种期望修正的方法，公式如下：

$KaTeX parse error: Undefined control sequence: \[ at position 97: …=E\_{x \\sim q}\̲[̲f(x){\\frac{p(x…$

我们在已知 $q$ 的分布后，可以使用上式计算出从 $p$ 分布的期望值。也就可以使用 $q$ 来对 $p$ 进行采样了，即重要性采样。

3.2 友善的面试官：请问同策略和异策略的区别是什么？

我可以用一句话概括两者的区别，即生成样本的策略（价值函数）和网络参数更新时的策略（价值函数）是否相同。具体来说，同策略,生成样本的策略（价值函数）与网络更新参数时使用的策略（价值函数）相同。Sarsa算法就是同策略的，其基于当前的策略直接执行一次动作，然后用价值函数的值更新当前的策略，因此生成样本的策略和学习时的策略相同，算法为同策略算法。该算法会遭遇探索-利用窘境，仅利用目前已知的最优选择，可能学不到最优解，不能收敛到局部最优，而加入探索又降低了学习效率。 $varepsilon\\varepsilon$ -贪心算法是这种矛盾下的折中，其优点是直接了当、速度快，缺点是不一定能够找到最优策略。异策略，生成样本的策略（价值函数）与网络更新参数时使用的策略（价值函数）不同。例如，Q学习算法在计算下一状态的预期奖励时使用了最大化操作，直接选择最优动作，而当前策略并不一定能选择到最优动作，因此这里生成样本的策略和学习时的策略不同，即异策略算法。

3.3 友善的面试官：请简述一下近端策略优化算法。其与信任区域策略优化算法有何关系呢？

近端策略优化算法借鉴了信任区域策略优化算法，通过采用一阶优化，在采样效率、算法表现以及实现和调试的复杂度之间取得了新的平衡。这是因为近端策略优化算法会在每一次迭代中尝试计算新的策略，让损失函数最小化，并且保证每一次新计算出的策略能够和原策略相差不大。换句话说，其为在避免使用重要性采样时由于在 $θ\theta$ 下的 $p_theta(a_t∣s_t)p\_{\\theta}\left(a\_{t} | s\_{t}\right)$ 与在 $θ′\theta'$ 下的 $p_θ′(a_t∣s_t)p\_{\theta'}\left(a\_{t} | s\_{t}\right)$ 差太多，导致重要性采样结果偏差较大而采取的算法。

最后

感谢你们的阅读和喜欢，我收藏了很多技术干货，可以共享给喜欢我文章的朋友们，如果你肯花时间沉下心去学习，它们一定能帮到你。

因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。作为一个普通人，无法全部学完，所以我们在提升技术的时候，首先需要明确一个目标，然后制定好完整的计划，同时找到好的学习方法，这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

五、面试资料

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r