Vision-Language-Action(VLA)模型全面详解:机器人时代的“具身大模型”
如果说2022–2024年是“ChatGPT时刻”,那么2025年开始,就是“机器人ChatGPT时刻”。VLA 模型正在把互联网上积累的千亿级视觉-语言知识,真正“具身化”到物理世界。未来当你对家里的机器人说一句再普通不过的话,它就能完美执行时,背后很可能就是一个VLA在默默工作。这不是科幻,这是2025年正在发生的现实。
共学AI——Vision-Language-Action(VLA)模型全面详解:机器人时代的“具身大模型”
一、什么是 VLA?
Vision-Language-Action(视觉-语言-行动)模型,简称 VLA,是2023–2025年间最具爆发力的具身智能(Embodied AI)研究方向,被业界称为“机器人的大语言模型”。
一句话定义:
VLA 是一个端到端神经网络,它同时接收图像(或视频)+ 自然语言指令,直接输出机器人可执行的低级动作序列,中间不再需要传统的手写规则、SLAM、运动规划、抓取规划等模块。
简单举例:
- 你对机器人说:“把桌子上左边的红色可乐拿给我”
- VLA 模型看到摄像头画面 → 理解这句话 → 直接输出一连串机械臂关节角度或移动底盘速度指令
整个过程一步到位,像人类一样“看懂-听懂-动手”。
二、VLA 的发展简史(2023–2025)
| 时间 | 里程碑模型 | 团队 | 参数量 | 核心突破 |
|---|---|---|---|---|
| 2023.07 | RT-1 / RT-2 | Google DeepMind | 55B | 首次提出“像素到动作”端到端,web知识迁移到机器人 |
| 2024.03 | Octo | UC Berkeley | 93M | 小模型+扩散策略,连续动作,首个真正开源SOTA |
| 2024.06 | OpenVLA | Stanford + Berkeley | 7B | 完全开源,LoRA微调,普通3090就能跑 |
| 2024.10 | π0 (pi-zero) | Physical Intelligence | ~10B | 开放世界泛化,首次实现“没见过的物体+没见过的指令” |
| 2025.02 | Helix | Figure AI | 未公开 | 多机器人协同,已在真实家庭环境部署 |
| 2025 Q1–Q3 | TinyVLA 系列 | 多家实验室 | <1B | 边缘设备实时推理,手机+机械臂直连 |
三、VLA 的典型架构(2025主流做法)
图像 → ViT/CLIP/SigLIP 视觉编码器
↘ ↘
视觉Token 文本Token → LLaMA/PaLM/Qwen2
↘ ↗
共享Transformer
↓
Action Head(动作头)
↓
离散动作Token(RT系列) 或 连续动作扩散(Octo系列)
关键技巧:
- 大多数模型先冻结一个成熟的VLM(如OpenFlamingo、PaLI-X、Qwen-VL)
- 只训练一个轻量级的Action Head(几百万到几千万参数)
- 用LoRA/QLoRA在机器人轨迹数据上微调几千步即可达到90%以上成功率
四、主流开源 VLA 项目一览(2025最新)
| 项目名 | 参数量 | 基础VLM | 动作类型 | 推荐星数 | 能否3090/4090单卡跑 |
|---|---|---|---|---|---|
| OpenVLA | 7B | Prismatic-7B | 离散256-bin | 12k+ | Yes(LoRA 4-bit) |
| Octo | 93M | SigLIP + GPT | 连续扩散 | 9k+ | Yes(全参数) |
| OpenVLA-2 | 8B | Llama-3.1 | 混合 | 15k+ | Yes |
| RT-2-X | 55B | PaLM-E | 离散 | Google内部不开源 | |
| Helix-Lite | ~3B | Llama-3.2-V | 连续 | Figure部分开源 |
五、VLA vs 传统机器人栈对比
| 维度 | 传统模块化机器人系统 | VLA 端到端系统 |
|---|---|---|
| 模块数量 | 8–15个(感知→定位→规划→控制) | 1个神经网络 |
| 开发周期 | 6–24个月 | 1–4周(微调) |
| 泛化能力 | 只在训练环境有效 | 未见过物体+未见过指令也能完成 |
| 数据需求 | 几十万条专家演示+大量人工标注 | 几千条演示+海量网页图文即可 |
| 实时性(2025) | 30–100 Hz | 5–15 Hz(仍在快速提升) |
| 可解释性 | 高(每个模块可单独调试) | 正在通过CoT+可视化注意力解决 |
六、当前最火的四大应用场景
-
家用服务机器人
“把桌子收拾干净 → 自动识别所有物体、规划顺序、轻拿轻放 -
工业柔性制造
一句话换产线:把蓝色零件装到绿色底座上 → 无需重新编程 -
自动驾驶L4+
Reasoning-VLA 正在取代传统“感知-预测-规划”三级栈,实现可解释决策 -
人形机器人通用底座
Figure 02、Tesla Optimus、宇树H1等2025年量产机型均宣布采用VLA架构
七、未来展望(2025–2030路线图)
| 年份 | 预测里程碑 |
|---|---|
| 2025 | 单卡4090实时推理,家用机器人商业落地 |
| 2026 | VLA + NeRF/高斯溅射,实现“看一眼新房子就能打扫” |
| 2027 | 多机器人VLA协同(一个管家机器人指挥多个专业机器人) |
| 2028 | VLA + 世界模型,具备真正的长期规划能力 |
| 2030 | 通用具身基础大模型,类似“机器人界的GPT-5” |
结语
如果说2022–2024年是“ChatGPT时刻”,
那么2025年开始,就是“机器人ChatGPT时刻”。
VLA 模型正在把互联网上积累的千亿级视觉-语言知识,真正“具身化”到物理世界。
未来当你对家里的机器人说一句再普通不过的话,它就能完美执行时,
背后很可能就是一个VLA在默默工作。
这不是科幻,这是2025年正在发生的现实。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)