前言

具身智能(Embodied AI)被视为通往通用人工智能(AGI)的关键路径,但传统方法在开放、动态环境中仍面临泛化瓶颈。
近两年来,大模型(LLM、LVM、LVLM、MLM、VLA等)的爆发为具身系统带来了新的感知、推理与学习能力。

主要LLM时间线

电子科大最新综述系统(论文链接在文末)梳理了大模型如何赋能具身智能的两大核心——自主决策与具身学习,并首次将**“World Model”**纳入统一框架,为研究者提供了全景式路线图。

2.大模型 × 具身智能:整体框架

Fig-1 论文整体架构

图1:综述章节组织,涵盖分层/端到端决策、具身学习、World Model

表1:对比现有综述,本文首次同时覆盖五大维度

3.自主决策两大范式

3.1 分层决策(Hierarchical Decision-Making)

Fig-5 分层决策流程

感知 → 高层规划 → 底层执行 → 反馈增强

3.1.1 高层规划:让大模型“写剧本”

  • 结构化语言:LLM 生成 PDDL 规划,LLM+P、PDDL-WM 用外部验证器纠错。
  • 自然语言:SayCan、Text2Motion 用 RL 值函数或几何检查器过滤不可行动作。
  • 编程语言:Code-as-Policy、Instruct2Act 将指令直接转为可执行 Python 代码。
3.1.2 底层执行:从 PID 到扩散策略

  • 传统 PID/MPC 与 LLM 调用 CLIP、SAM 等视觉 API 结合,实现模块化控制。
  • 最新工作(π₀、Octo)用扩散模型输出连续轨迹,兼顾平滑与精准。
3.1.3 反馈闭环:三种来源

  1. Self-Reflection:Re-Prompting、Reflexion 让 LLM 自评自改。
  2. 人类反馈:YAY Robot、IRAP 在线接受语言纠正。
  3. 环境反馈:Inner Monologue、DoReMi 把多模态观测转成自然语言再规划。

3.2 端到端决策:Vision-Language-Action (VLA) 模型

Fig-9 VLA 端到端框架

图9:VLA 直接映射多模态输入到动作

3.2.1 VLA 的三板斧

组件 作用 代表模型
Tokenizer 视觉/语言/状态/动作统一编码 RT-2、OpenVLA
融合模块 Cross-Attention 融合跨模态信息 Octo、Diffusion-VLA
De-Tokenizer 离散或连续动作解码 π₀、TinyVLA
3.2.2 三大增强方向

  1. 感知增强:BYO-VLA 运行时去噪、3D-VLA 引入点云。
  2. 轨迹优化:Diffusion-VLA 用扩散头生成平滑轨迹;π₀ 采用流匹配提速。
  3. 成本降低:TinyVLA 知识蒸馏 + 量化,边缘端 30 ms 推理。
3.2.3 主流 VLA 对比

表2:主流 VLA 一览(节选)

4.具身学习:从模仿到强化,大模型全面提效

Fig-12 具身学习方法论

图12:模仿学习、RL、迁移学习、元学习协同示意图

4.1 模仿学习:扩散 & Transformer 双轮驱动

  • 扩散策略:Diffusion Policy、3D-Diffusion 用 U-Net 建模多模态动作分布,抗噪声、长程一致。
  • Transformer 策略:RT-1、ALOHA、Mobile ALOHA 用 Decision Transformer 结构,端到端输出动作序列。

4.2 强化学习:大模型解决两大痛点

痛点 大模型解法 代表工作
奖励函数设计难 GPT-4 自动生成密集奖励 Eureka、Text2Reward
策略网络表达弱 扩散/Transformer/LLM 作为策略 Diffusion-QL、GLAM、LaMo

5.World Model:决策与学习的新引擎

图16:World Model 在决策与学习中的双重角色

5.1 四大设计路线

  1. Latent Space:RSSM → Dreamer 系列,低维潜空间预测。
  2. Transformer:Genie、IRIS 用自注意力建模长程依赖。
  3. Diffusion:UniPi、Sora 直接在像素空间生成未来帧。
  4. JEPA:LeCun 提出非生成式联合嵌入预测架构,强调常识推理。

5.2 两大应用场景

  • 决策:在“脑内”模拟验证动作,降低真实交互成本(UniSim、NeBula)。
  • 学习:提供虚拟交互环境 + 合成数据,提升样本效率(SynthER、SWIM)。

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐