Vision-Language-Action（VLA）模型全面详解：机器人时代的“具身大模型”

如果说2022–2024年是“ChatGPT时刻”，那么2025年开始，就是“机器人ChatGPT时刻”。VLA 模型正在把互联网上积累的千亿级视觉-语言知识，真正“具身化”到物理世界。未来当你对家里的机器人说一句再普通不过的话，它就能完美执行时，背后很可能就是一个VLA在默默工作。这不是科幻，这是2025年正在发生的现实。

腾TO的技术输出

1423人浏览 · 2025-11-26 15:15:52

腾TO的技术输出 · 2025-11-26 15:15:52 发布

共学AI——Vision-Language-Action（VLA）模型全面详解：机器人时代的“具身大模型”

一、什么是 VLA？

Vision-Language-Action（视觉-语言-行动）模型，简称 VLA，是2023–2025年间最具爆发力的具身智能（Embodied AI）研究方向，被业界称为“机器人的大语言模型”。

一句话定义：
VLA 是一个端到端神经网络，它同时接收图像（或视频）+ 自然语言指令，直接输出机器人可执行的低级动作序列，中间不再需要传统的手写规则、SLAM、运动规划、抓取规划等模块。

简单举例：

你对机器人说：“把桌子上左边的红色可乐拿给我”
VLA 模型看到摄像头画面 → 理解这句话 → 直接输出一连串机械臂关节角度或移动底盘速度指令
整个过程一步到位，像人类一样“看懂-听懂-动手”。

二、VLA 的发展简史（2023–2025）

时间	里程碑模型	团队	参数量	核心突破
2023.07	RT-1 / RT-2	Google DeepMind	55B	首次提出“像素到动作”端到端，web知识迁移到机器人
2024.03	Octo	UC Berkeley	93M	小模型+扩散策略，连续动作，首个真正开源SOTA
2024.06	OpenVLA	Stanford + Berkeley	7B	完全开源，LoRA微调，普通3090就能跑
2024.10	π0 (pi-zero)	Physical Intelligence	~10B	开放世界泛化，首次实现“没见过的物体+没见过的指令”
2025.02	Helix	Figure AI	未公开	多机器人协同，已在真实家庭环境部署
2025 Q1–Q3	TinyVLA 系列	多家实验室	<1B	边缘设备实时推理，手机+机械臂直连

三、VLA 的典型架构（2025主流做法）

图像 → ViT/CLIP/SigLIP 视觉编码器
      ↘                              ↘
       视觉Token               文本Token → LLaMA/PaLM/Qwen2
                 ↘          ↗
                    共享Transformer
                          ↓
                  Action Head（动作头）
                          ↓
           离散动作Token（RT系列） 或 连续动作扩散（Octo系列）

关键技巧：

大多数模型先冻结一个成熟的VLM（如OpenFlamingo、PaLI-X、Qwen-VL）
只训练一个轻量级的Action Head（几百万到几千万参数）
用LoRA/QLoRA在机器人轨迹数据上微调几千步即可达到90%以上成功率

四、主流开源 VLA 项目一览（2025最新）

项目名	参数量	基础VLM	动作类型	推荐星数	能否3090/4090单卡跑
OpenVLA	7B	Prismatic-7B	离散256-bin	12k+	Yes（LoRA 4-bit）
Octo	93M	SigLIP + GPT	连续扩散	9k+	Yes（全参数）
OpenVLA-2	8B	Llama-3.1	混合	15k+	Yes
RT-2-X	55B	PaLM-E	离散	Google内部不开源
Helix-Lite	~3B	Llama-3.2-V	连续	Figure部分开源

五、VLA vs 传统机器人栈对比

维度	传统模块化机器人系统	VLA 端到端系统
模块数量	8–15个（感知→定位→规划→控制）	1个神经网络
开发周期	6–24个月	1–4周（微调）
泛化能力	只在训练环境有效	未见过物体+未见过指令也能完成
数据需求	几十万条专家演示+大量人工标注	几千条演示+海量网页图文即可
实时性（2025）	30–100 Hz	5–15 Hz（仍在快速提升）
可解释性	高（每个模块可单独调试）	正在通过CoT+可视化注意力解决

六、当前最火的四大应用场景

家用服务机器人
“把桌子收拾干净 → 自动识别所有物体、规划顺序、轻拿轻放
工业柔性制造
一句话换产线：把蓝色零件装到绿色底座上 → 无需重新编程
自动驾驶L4+
Reasoning-VLA 正在取代传统“感知-预测-规划”三级栈，实现可解释决策
人形机器人通用底座
Figure 02、Tesla Optimus、宇树H1等2025年量产机型均宣布采用VLA架构

七、未来展望（2025–2030路线图）

年份	预测里程碑
2025	单卡4090实时推理，家用机器人商业落地
2026	VLA + NeRF/高斯溅射，实现“看一眼新房子就能打扫”
2027	多机器人VLA协同（一个管家机器人指挥多个专业机器人）
2028	VLA + 世界模型，具备真正的长期规划能力
2030	通用具身基础大模型，类似“机器人界的GPT-5”

结语

如果说2022–2024年是“ChatGPT时刻”，
那么2025年开始，就是“机器人ChatGPT时刻”。

VLA 模型正在把互联网上积累的千亿级视觉-语言知识，真正“具身化”到物理世界。
未来当你对家里的机器人说一句再普通不过的话，它就能完美执行时，
背后很可能就是一个VLA在默默工作。

这不是科幻，这是2025年正在发生的现实。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r