1.核心词汇

  • 同策略(on-policy):要学习的智能体和与环境交互的智能体是同一个时对应的策略。

  • 异策略(off-policy):要学习的智能体和与环境交互的智能体不是同一个时对应的策略。

  • 重要性采样(important sampling):使用另外一种分布,来逼近所求分布的一种方法,在强化学习中通常和蒙特卡洛方法结合使用,公式如下:
    KaTeX parse error: Undefined control sequence: \[ at position 91: …x=E\_{x \sim q}\̲[̲f(x){\frac{p(x)…
    我们在已知 qqq 的分布后,可以使用上式计算出从 ppp 这个分布采样 xxx 代入 fff 以后得到的期望值。

  • 近端策略优化(proximal policy optimization,PPO):避免在使用重要性采样时由于在 θ\thetaθ 下的 KaTeX parse error: Expected 'EOF', got '\right' at position 34: …a\_{t} | s\_{t}\̲r̲i̲g̲h̲t̲) 与在 θ′\theta 'θ 下的 p_θ′(a_t∣s_t)p\_{\theta'}\left(a\_{t} | s\_{t}\right)p_θ(a_ts_t) 相差太多,导致重要性采样结果偏差较大而采取的算法。具体来说就是在训练的过程中增加一个限制,这个限制对应 θ\thetaθθ′\theta'θ 输出的动作的KL散度,来衡量 θ\thetaθθ′\theta'θ 的相似程度。

2.常见问题汇总

2.1 基于同策略的策略梯度有什么可改进之处?或者说其效率较低的原因在于什么?

经典策略梯度的大部分时间花在数据采样上,即当我们的智能体与环境交互后,我们就要进行策略模型的更新。但是对于一个回合我们仅能更新策略模型一次,更新完后我们就要花时间重新采样数据,然后才能再次进行如上的更新。

所以我们可以使用异策略的方法,即使用另一个不同的策略和演员,与环境进行交互并用所采样的数据进行原先策略的更新。这样等价于使用同一组数据,在同一个回合,我们对整个策略模型更新了多次,这样会更加有效率。

2.2 使用重要性采样时需要注意的问题有哪些?

我们可以在重要性采样中将 ppp 替换为任意的 qqq,但是本质上要求两者的分布不能差太多,即使我们补偿了不同数据分布的权重 p(x)q(x)\frac{p(x)}{q(x)}q(x)p(x)KaTeX parse error: Undefined control sequence: \[ at position 14: E\_{x \sim p}\̲[̲f(x)\]=E\_{x \s… ,当我们对于两者的采样次数都比较多时,最终的结果会是较为接近的。但是通常我们不会取理想数量的采样数据,所以如果两者的分布相差较大,最后结果的方差将会很大。

2.3 基于异策略的重要性采样中的数据是从 θ′\theta'θ 中采样出来的,从 θ\thetaθ 换成 θ′\theta'θ 有什么优势?

使用基于异策略的重要性采样后,我们不用 θ\thetaθ 与环境交互,而是由另外一个策略 θ′\theta'θ 进行示范。 θ′\theta'θ 的任务就是示范给 θ\thetaθ 看,它和环境交互,告诉 θ\thetaθ 它与环境交互会发生什么事,以此来训练 θ\thetaθ 。我们要训练的是 θ\thetaθθ′\theta'θ 只负责做示范,负责与环境交互,所以采样出来的数据与 θ\thetaθ 本身是没有关系的。所以就可以让 θ′\theta'θ 与环境交互采样大量数据,θ\thetaθ 可以更新参数多次。一直到 θ\thetaθ 训练到一定的程度、参数更新多次以后,θ′\theta'θ 再重新采样,这就是同策略换成异策略的妙处。

2.4 在本节中近端策略优化中的KL散度指的是什么?

本质来说,KL散度是一个函数,其度量的是两个动作(对应的参数分别为 theta\\thetathetatheta′\\theta'theta )间的行为距离,而不是参数距离。这里的行为距离可以理解为在相同状态下输出动作的差距(概率分布上的差距),概率分布即KL散度。

3.面试必知必答

3.1 友善的面试官:请问什么是重要性采样呀?

使用另外一种分布,来逼近所求分布的一种方法,算是一种期望修正的方法,公式如下:

KaTeX parse error: Undefined control sequence: \[ at position 97: …=E\_{x \\sim q}\̲[̲f(x){\\frac{p(x…

我们在已知 qqq 的分布后,可以使用上式计算出从 ppp 分布的期望值。也就可以使用 qqq 来对 ppp 进行采样了,即重要性采样。

3.2 友善的面试官:请问同策略和异策略的区别是什么?

我可以用一句话概括两者的区别,即生成样本的策略(价值函数)和网络参数更新时的策略(价值函数)是否相同。具体来说,同策略,生成样本的策略(价值函数)与网络更新参数时使用的策略(价值函数)相同。Sarsa算法就是同策略的,其基于当前的策略直接执行一次动作,然后用价值函数的值更新当前的策略,因此生成样本的策略和学习时的策略相同,算法为同策略算法。该算法会遭遇探索-利用窘境,仅利用目前已知的最优选择,可能学不到最优解,不能收敛到局部最优,而加入探索又降低了学习效率。 varepsilon\\varepsilonvarepsilon-贪心算法是这种矛盾下的折中,其优点是直接了当、速度快,缺点是不一定能够找到最优策略。异策略,生成样本的策略(价值函数)与网络更新参数时使用的策略(价值函数)不同。例如,Q学习算法在计算下一状态的预期奖励时使用了最大化操作,直接选择最优动作,而当前策略并不一定能选择到最优动作,因此这里生成样本的策略和学习时的策略不同,即异策略算法。

3.3 友善的面试官:请简述一下近端策略优化算法。其与信任区域策略优化算法有何关系呢?

近端策略优化算法借鉴了信任区域策略优化算法,通过采用一阶优化,在采样效率、算法表现以及实现和调试的复杂度之间取得了新的平衡。这是因为近端策略优化算法会在每一次迭代中尝试计算新的策略,让损失函数最小化,并且保证每一次新计算出的策略能够和原策略相差不大。换句话说,其为在避免使用重要性采样时由于在 θ\thetaθ 下的 p_theta(a_t∣s_t)p\_{\\theta}\left(a\_{t} | s\_{t}\right)p_theta(a_ts_t) 与在 θ′\theta'θ 下的 p_θ′(a_t∣s_t)p\_{\theta'}\left(a\_{t} | s\_{t}\right)p_θ(a_ts_t) 差太多,导致重要性采样结果偏差较大而采取的算法。

最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

五、面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐