AI 大模型智能体,人设、记忆、规划与行动
提到大模型相关的应用,就肯定会听过一个词,叫智能体,也就是 Agent。打开通义千问的 APP,就有一个“智能体”的标签页,里面有各种智能体。这里我们说到的智能体,全称是 Large Language Model based AutonomousAgent,简称为 LLM Agent,或直接叫 Agent,指的是以大模型作为推理引擎的智能体。智能体之所以受到关注,是因为借助大模型的推理能力,智..
提到大模型相关的应用,就肯定会听过一个词,叫智能体,也就是 Agent。
打开通义千问的 APP,就有一个“智能体”的标签页,里面有各种智能体。

这里我们说到的智能体,全称是 Large Language Model based Autonomous Agent,简称为 LLM Agent,或直接叫 Agent,指的是以大模型作为推理引擎的智能体。
智能体之所以受到关注,是因为借助大模型的推理能力,智能体可以在真正意义上,帮助人们解决一些现实的问题,不管是写代码,写文案,日程安排等,智能体带来了无穷的可能性。
从技术上来说,智能体由4个部分组成,分别是人设、记忆、规划和行动。这种划分方式,来源于 A Survey on Large Language Model based Autonomous Agents 这篇综述(https://arxiv.org/abs/2308.11432)。

这4个组成部分,如下图所示。这张图也是来源于这篇综述。

首先说人设(Profile)。人设很好理解,就是让大模型扮演的角色。一般都是某个领域的专家,这样才能给用户提供建议。比如,可以扮演律师、心理咨询师、资深程序员,或者其他角色。最简单的设置人设的方式,就是给大模型发送一条系统消息,例如,你是一名资深的心理咨询师,请帮助用户解决心理相关的问题。这样就为大模型设置了一个人设。当然了,每个人设要求大模型具备相关的领域知识。
其次是记忆(Memory)。对智能体来说,记忆的作用和人类的记忆是相似的。通过记忆,可以让智能体积累知识和自我进化。智能体的记忆分成两种,短期记忆和长期记忆。短期记忆,指的是当前大模型的上下文窗口中的内容。受限于上下文窗口的尺寸限制,短期记忆的内容一般比较少,只是最近与大模型的聊天记录。长期记忆,保存在外部储存中,通常是向量数据库中。在交互时,智能体可以提取与当前用户相关的长期记忆,作为生成当前内容时的辅助。
再次是规划(Planning)。规划指的是,对于一个任务,智能体以什么样的方式来进行思考,找到完成任务的方式。规划的方式分成两种,无反馈和有反馈。
-
无反馈的方式,指的是智能体根据预先设置的方式来执行任务,并不考虑每一步执行之后会带来的影响。在给大模型的提示中,就已经给出了具体的步骤。
-
有反馈的方式,指的是智能体在每一步执行时,会考虑上一步执行了之后所造成的影响,由此来确定下一步的动作。有反馈的方式,适合于执行耗时较长,外部依赖多的复杂任务。
最后是行动(Action)。行动模块把智能体的决策转换为具体的结果。这也是使用智能体的意义所在,对真实的世界产生影响。可以让智能体完成某些任务,或是输出一些内容。智能体在行动时,通常需要外部工具的支持。比如,如果你希望智能体帮你规划一天的日程安排,智能体需要使用外部工具来更新你的日程表。这些工具,可以是 API,数据库和知识库,甚至是其他的大模型。
以上就是 AI 大模型智能体的基本介绍。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)