AI 大模型智能体，人设、记忆、规划与行动

提到大模型相关的应用，就肯定会听过一个词，叫智能体，也就是 Agent。打开通义千问的 APP，就有一个“智能体”的标签页，里面有各种智能体。这里我们说到的智能体，全称是 Large Language Model based AutonomousAgent，简称为 LLM Agent，或直接叫 Agent，指的是以大模型作为推理引擎的智能体。智能体之所以受到关注，是因为借助大模型的推理能力，智..

成富

1727人浏览 · 2024-04-24 08:00:22

成富 · 2024-04-24 08:00:22 发布

提到大模型相关的应用，就肯定会听过一个词，叫智能体，也就是 Agent。

打开通义千问的 APP，就有一个“智能体”的标签页，里面有各种智能体。

这里我们说到的智能体，全称是 Large Language Model based Autonomous Agent，简称为 LLM Agent，或直接叫 Agent，指的是以大模型作为推理引擎的智能体。

智能体之所以受到关注，是因为借助大模型的推理能力，智能体可以在真正意义上，帮助人们解决一些现实的问题，不管是写代码，写文案，日程安排等，智能体带来了无穷的可能性。

从技术上来说，智能体由4个部分组成，分别是人设、记忆、规划和行动。这种划分方式，来源于 A Survey on Large Language Model based Autonomous Agents 这篇综述（https://arxiv.org/abs/2308.11432）。

这4个组成部分，如下图所示。这张图也是来源于这篇综述。

首先说人设（Profile）。人设很好理解，就是让大模型扮演的角色。一般都是某个领域的专家，这样才能给用户提供建议。比如，可以扮演律师、心理咨询师、资深程序员，或者其他角色。最简单的设置人设的方式，就是给大模型发送一条系统消息，例如，你是一名资深的心理咨询师，请帮助用户解决心理相关的问题。这样就为大模型设置了一个人设。当然了，每个人设要求大模型具备相关的领域知识。

其次是记忆（Memory）。对智能体来说，记忆的作用和人类的记忆是相似的。通过记忆，可以让智能体积累知识和自我进化。智能体的记忆分成两种，短期记忆和长期记忆。短期记忆，指的是当前大模型的上下文窗口中的内容。受限于上下文窗口的尺寸限制，短期记忆的内容一般比较少，只是最近与大模型的聊天记录。长期记忆，保存在外部储存中，通常是向量数据库中。在交互时，智能体可以提取与当前用户相关的长期记忆，作为生成当前内容时的辅助。

再次是规划（Planning）。规划指的是，对于一个任务，智能体以什么样的方式来进行思考，找到完成任务的方式。规划的方式分成两种，无反馈和有反馈。

无反馈的方式，指的是智能体根据预先设置的方式来执行任务，并不考虑每一步执行之后会带来的影响。在给大模型的提示中，就已经给出了具体的步骤。
有反馈的方式，指的是智能体在每一步执行时，会考虑上一步执行了之后所造成的影响，由此来确定下一步的动作。有反馈的方式，适合于执行耗时较长，外部依赖多的复杂任务。

最后是行动（Action）。行动模块把智能体的决策转换为具体的结果。这也是使用智能体的意义所在，对真实的世界产生影响。可以让智能体完成某些任务，或是输出一些内容。智能体在行动时，通常需要外部工具的支持。比如，如果你希望智能体帮你规划一天的日程安排，智能体需要使用外部工具来更新你的日程表。这些工具，可以是 API，数据库和知识库，甚至是其他的大模型。

以上就是 AI 大模型智能体的基本介绍。