img

01摘要

视觉-语言-动作模型(Vision-Language-Action,简称 VLA是一种将视觉感知、自然语言理解与动作控制统一到同一框架的人工智能模型,在自动驾驶领域代表了端到端技术的下一阶段。

通过融合摄像头等传感器看到的世界与大语言模型的知识推理能力,VLA模型能够直接从感知输入生成驾驶控制指令,实现从“看”到“懂”再到“行”的完整闭环。这一技术顺应自动驾驶从模块化走向通用大模型的趋势,被视为自动驾驶****大模型****2.0****时代的核心。总体而言,VLA技术的核心价值在于赋予机器类人驾驶智能,这对自动驾驶产业具有重大战略意义:它有望加速汽车从辅助驾驶走向高阶自动驾驶的演进,并为未来机器人和通用人工智能奠定基础。

img

*#02**技术背景*

VLA 的起源与发展: VLA概念萌芽于机器人研究领域,是视觉-语言模型(VLM)向具身智能发展的自然演进。早在 2021~2022 年,Google DeepMind 等机构提出了将感知、推理和控制统一的架构思路。其中具有代表性的是 2023 年公布的 Robotic Transformer 2 (RT-2) 模型。RT-2首次在机器人任务中结合了预训练视觉模型(如 PaLI-X)和语言模型(如 PaLM-E),直接从摄像头图像和自然语言指令输出机器人动作序列,被视为最早的 VLA 雏形。*“Vision-Language-Action”*** 这一术语即源自****RT-2 论文,标志着 AI 由感知决策分离走向端到端一体化的新范式。与此同时,Google 于 2022 年推出的机器人Transformer RT-1(仅视觉到动作)以及跨模态大模型 PaLM-E,都为VLA奠定了基础。总体来看,VLA兴起于机器人领域的直接动因,是希望*像人类一样让****AI“看、思考并行动”***,减少传统手工规则和中间模块的限制。

自动驾驶领域的演化: 自动驾驶本质上是人工智能与物理世界交互的过程,与机器人有高度相似性。在过去十年,自动驾驶技术经历了从模块化方案(感知****→规划→控制)到端到端神经网络1.0的探索。2023年前后,大模型(如GPT-4)的突破进一步启发了车企引入大规模AI模型的新思路。以此为契机,业内逐渐形成共识:视觉-语言-动作大模型将是通往完全自动驾驶的重要里程碑。2024年,英国 Wayve 公司率先在自动驾驶中引入视觉-语言模型,用自然语言解释车辆行为(LINGO-1),并在2024年推出了闭环决策的 VLA 模型。同年,国内的理想汽车发布了基于视觉-语言模型的城市NOA方案,被视为最接近VLA的量产实践。进入2025年,理想、小鹏等公司相继宣布各自的 VLA 驾驶大模型计划,小鹏更启动了720亿参数的自动驾驶基座模型研发。曾率先推行高精地图方案的蔚来则提出了“世界模型 (World Model)”理念,以期结合虚拟环境模拟提升AI的环境理解力。可以说,2025年成为 VLA 技术全面竞逐的元年,各家纷纷将其视为通往高等级自动驾驶甚至通用人工智能的关键路径。VLA技术背景的形成,体现了自动驾驶行业从“感知驱动”转向“认知驱动”的重大范式转变:AI不再只是被动感知路况,还能够通过语言符号进行高级推理,从而主动规划行为。

*#03技术架构*

总体结构: VLA模型通常由三个主要模块组成:视觉编码器**、语言模型和****策略/控制模块**。首先,视觉编码器(如CNN、Vision Transformer 等)从多视角摄像头或激光雷达获取环境感知,将像素级别的数据转化为有语义的表示(例如将道路、车辆、行人识别并提取成视觉Token)。接下来,大语言模型(LLM)或其它语言理解模块将导航指令、地图信息甚至人类口头命令等文本输入编码为高维嵌入表示,进行语义理解与推理。然后,策略/控制模块根据视觉和语言提供的上下文,规划出车辆的驾驶策略,并生成相应的动作序列——可以是高阶的行为决策(如“换道超车”),也可以是低阶的连续控制(如方向盘转角、加减速等)。整个架构通过多模态对齐机制将视觉与语言信息融合,例如采用交叉注意力、级联嵌入投影或统一Token序列的方式,将图像特征和文本特征映射到同一语义空间进行联合计算。

img

该模型使用预训练的视觉-语言大模型作为感知和语义理解的骨干,再结合一个扩散式动作控制器产生驾驶轨迹。蓝色方框表示视觉Transformer编码的多视角图像特征,绿色方框表示融合后的语义Token序列,浅橙色方框表示扩散动作解码器逐步生成的未来轨迹。通过这种端到端架构,系统能够从原始传感器输入直接推理得到车辆控制指令。

与传统方案的差异: VLA架构与以往的自动驾驶系统有明显不同。传统方案往往采用模块化流水线,各子模块各司其职:感知模块检测路上的目标,预测模块评估运动轨迹,规划控制模块依据规则生成转向加速命令。这种模式依赖大量人工设计和规则,模块间接口固定且缺乏灵活性,各模块误差可能逐层传递。而****VLA模型则****打破模块壁垒,将感知、理解和决策融为一体*。在****VLA中,**视觉和语言信息通过共享的表示进行交互,车辆能够****“理解”场景的语义含义,再“思考”应采取的行动。***举例来说,传统自动驾驶很难处理人类用语言给出的临时指令,而VLA可以将“前方红绿灯右转”这样的自然语言直接解析为车辆操作。此外,不同于端到端1.0模型仅输出转向角等低级控制信号,VLA模型往往还能产生对决策的解释说明(通过语言输出),使系统不再是完全的“黑箱”。总之,VLA架构提供了*语义层面的整体感知与决策*:它像一个训练有素的司机,能看懂道路场景的细微之处,听懂高层次指令,并在此基础上规划细致合理的驾驶行为。

*#04核心技术实现*

1、*视觉感知模块:*

VLA模型的视觉编码器承担将高维传感器数据提炼成语义特征的任务。目前常用的方法包括卷积神经网络(CNN)和视觉Transformer(ViT)等架构,以及在大规模数据上预训练的模型。例如,OpenAI 的 CLIP 模型将图像和文本对齐的能力引入视觉编码,可在自动驾驶中用于感知具有语义意义的路标、文字等信息。Transformer-based 模型(如 ViT)擅长全局建模视野中的物体关系,而自监督预训练模型DINOv2 则提供对空间几何的良好理解,被用于提取场景的多尺度表示。在一些前沿方案中,会组合多种视觉编码器以取长补短,例如OpenDrive VLA 模型结合了 DINOv2(约3亿参数)和一个类CLIP模型(SigLIP,约4亿参数)共同提取图像特征:DINOv2注重3D空间结构,SigLIP提供强大的图像-文本对齐能力。无论采用哪种实现,视觉模块最终会输出一系列视觉Token或特征向量,表示道路环境的要素(如车辆、行人、交通标志及相对位置等),为后续决策提供基础感知输入。

img

2、语言认知模*****块:*****

VLA的语言模块通常由大型Transformer语言模型担纲。它的作用是在理解任务目标和高层语义的同时,引入人类世界知识对场景进行推理。例如,Meta 开源的 LLaMA2、阿里的Qwen 系列等7B~13B参数级的大模型被广泛提及,可用作VLA的大脑。这些模型可以将导航文本、用户语音命令甚至隐藏的上下文知识编码为语义嵌入向量,和视觉特征一道作为输入。一个典型流程是:将车辆当前位置、目的地图标等信息转成描述性语言提示,与摄像头感知到的场景要素一并输入 LLM,让其推理下一步行动策略。由于原生的大语言模型体积庞大、推理开销巨大,业界在实现时会进行模型裁剪和优化。理想汽车的MindGPT 模型即声称完全自研,从零训练,并通过 Sparse Attention(稀疏注意力)和混合专家(MoE) 等架构在不损失性能的情况下显著降低了推理计算量,使模型在Orin 芯片上也能达到 10Hz 输出频率。这意味着理想VLA的大语言模块每0.1秒即可给出驾驶决策,大致满足车辆控制实时性需求。

img

img

此外,一些方法还会结合链式思维(Chain-of-Thought, CoT) 技术,引入固定的思维链模板,引导模型逐步解析复杂场景,兼顾推理深度与实时性的平衡。语言模块通过上述优化后,可作为“慢思考”的智能中枢,高效整合视觉信息与驾驶知识,输出高层次的驾驶意图和解释说明。

*3、多模态融合策略:*

为了让视觉编码器与语言模型协同工作,VLA模型采用多模态融合技术来对齐不同模态的数据表示。一种常见策略是*Token级融合***:将视觉特征经过投影映射,与文本****Token级联形成单一序列,再输入大语言模型统一处理。

img

例如,在上述OpenDrive VLA 中,DINOv2和SigLIP的图像嵌入先经过一个多层感知机(MLP)投影到与 LLM 相同的向量空间,然后与文本Token拼接,一同传入 LLM 执行跨模态注意力计算。另一种方法是****交叉注意力*融合:视觉编码器和语言模型各自处理各自的模态,中间通过交叉注意力层或门控单元交换信息,使模型在多轮交互中对视觉-语言关联进行推理。还有一些实现采用级联设计*,如先用语言模型生成对视觉注意的Query,再引导视觉编码提取相关特征,循环迭代优化决策。无论具体机制如何,这些融合策略的目标都是实现共享的语义空间:让模型能“听懂”视觉里的内容,也能用语言去“解释”感知到的世界。值得一提的是,为了让VLA直接处理来自传感器的原始数据,一些架构在融合时还会包括车辆自身状态(如速度、转向角)和高精地图/定位信息等,使模型拥有对自身及环境更全面的上下文理解。

*4、策略与控制模块:*

这是****VLA模型将感知与推理转化为实际车辆操作的关键一环。根据不同设计,控制模块的实现方式有所差异:

1.单一****Transformer生成: 某些VLA采用一个统一的Transformer直接输出驾驶控制序列。例如 Wayve 的 LINGO-2 模型中,一个自回归多模态Transformer既负责语言解释,又负责生成驾驶动作令牌。在这种架构下,语言模型本身同时充当了高级决策和低级控制器的角色,通过生成特定的 “驾驶指令Token” 来表示方向、速度等动作,然后经反Tokenization映射为转向角/油门等连续信号执行。Google 的 RT-2 采用的就是此思路:由预训练视觉模型和12B参数的主干模型共同训练,直接输出离散的动作token序列(如代码片段表示的机器人操作),再转换为硬件控制指令。这种方式结构简单,但对模型一次性生成高维精细控制序列的能力要求极高。

2.双模块专家解耦: 最新的一些研究将决策规划与运动控制拆分为两个专门模型,即所谓“系统2/系统1”双重处理架构。其中系统2(S2)是较慢的大模型,利用视觉和语言信息进行全局规划和高层推理;系统1(S1)则是精简的快速模型,专注低层次的实时控制执行。二者类似人类的慢思考与快反应,相互协作完成驾驶任务。扩散模型 (Diffusion) 是常用的S1控制器形式,它通过迭代去噪的方法逐步逼近目标轨迹,天然适合生成平滑连续的运动序列。

img

例如,理想VLA的行为生成器部分就采用了扩散策略,以多模态扩散模型同时预测自车和他车未来轨迹,并通过ODE采样器将生成步骤加速至2~3步,满足100ms级的控制要求。再比如 Nvidia 的 GR00T N1 和 Figure AI 的 Helix 系统,均采用“VLM+扩散”的双专家框架:前者使用2B参数的Transformer感知与规划,后者用扩散Transformer在120Hz频率产生平滑精细的动作,端到端实现人形机器人控制。特别是 Figure 的 Helix 模型,是首个应用于通用人形机器人控制的 VLA 框架,其S2部分为一个7B参数的开源视觉语言模型,每秒7-9次循环推理高层语义任务;S1部分是一个仅80M参数的交叉注意Transformer控制器,却以高达200Hz的频率输出实时关节控制,从而让双臂机器人在执行复杂语义任务的同时具备灵巧快速的运动能力。实践证明,这种解耦架构能够兼顾决策的广度控制的速度:S2深入考虑全局目标和复杂语义(例如理解“把车停在前方超市旁边”这样模糊指令),S1则负责微调方向和速度以平稳跟车、避让行人等,实现闭环驾驶控制。双模块通过共享的潜在表示(latent vector)通信:S2将规划意图投射为紧凑的向量提示,S1将其融合进自身感知,再即时产出细粒度操作。随着硬件的发展,这种“大脑+小脑”式协同有望在车载环境中落地,令VLA模型能够一边“思考”驾驶策略,一边以毫秒级响应执行避障等操作,进一步提升安全性。

*#05应用案例*

Wayve 公司 – LINGO 系列: Wayve是全球最早将VLA思想应用于自动驾驶的企业之一。2023年9月,Wayve发布了 *LINGO-1* 模型,为自动驾驶车辆引入了视觉-语言结合的****解释器*LINGO-1并不直接控制汽车,而是对已有驾驶模型的行为进行连续自然语言解说。**例如,当车辆减速让行人时,模型会输出“因为行人正在过马路,车辆减速避让”之类的语句,帮助乘客理解AI的决策依据。这一创举极大提升了自动驾驶的可解释性和用户信任度。随后在2024年3月,Wayve推出 *LINGO-2* **模型,将语言模块深度嵌入驾驶决策闭环,成为真正意义上的VLA模型。LINGO-2采用多模态Transformer架构,将Wayve自研的视觉网络与自回归语言模型结合,能一边“开车”一边“讲解”。驾驶过程中,模型既可以根据乘客或导航的语言指令调整行为(例如“在前方找到停车位”),也可以实时回答关于当前路况的提问,提供透明的决策依据。目前,Wayve已携手Uber在英国和美国测试L4级Robotaxi,并计划与日产合作,在2027年将其技术应用于量产车型(ProPilot智能驾驶)。Wayve的探索证明了VLA在自动驾驶中的可行性:即使没有高精地图,仅凭摄像头和AI,“小车”也能通过“大语言”获得类似人类司机的道路常识和沟通能力。这使得欧洲等复杂城市场景的自动驾驶有了新的解法,也引领了行业向“*车会思考,会交流*”的新阶段迈进。*

img

Wayve视觉模型从前向摄像头视频中提取特征(绿色Token序列),语言模型将导航文本等转换为语义向量(蓝色Token序列),共同输入后生成两类输出:一是驾驶动作序列(橙色),用于控制车辆转向、加减速等;二是解释说明文本(灰蓝色),用于实时播报车辆的决策逻辑。该架构使车辆能够边执行驾驶任务边用自然语言解释其行为。

理想汽车– MindVLA 架构: 理想汽车是国内在****VLA方向上动作最快的车企之一。早在2024年初,理想就发布了基于视觉-语言模型的城市导航辅助驾驶方案,并于当年中期实现量产上车,被视为“准VLA”系统。随后理想研发了完整的VLA驾司机模型,命名为****MindVLA****(寓意****“汽车的大脑”)。

img

在2025年3月的英伟达GTC大会上,理想披露其已在新车型上部署了参数约 22亿 的MindVLA模型,成为全球首批车端运行VLA模型的案例。MindVLA的架构包含 V-Spatial、L-Linguistic、A-Action 三大模块,对应空间感知、语言智能和行为策略三位一体。它通过3D空间编码器融合多摄像头和激光雷达信息,自监督学习得到带语义的高斯3D表示,实现对周围环境和自身状态的立体理解,无需高精地图和人工标注。在此基础上,一个专用训练的大语言模型(MindGPT)结合驾驶知识和逻辑推理能力,对感知结果进行评估决策。

img

值得注意的是,理想并未使用现成的开源大模型,而是选择从零训练,以便深度融合自动驾驶领域的专门知识;同时通过稀疏注意力和混合专家架构使这么大的模型能够在车载算力上以100ms级速度运行。最后,MindVLA利用扩散式行为生成器输出可行的未来轨迹序列,不仅规划本车路径,还预测周围车辆的运动,支持复杂交通中的交互博弈。为缓解大模型训练对真实道路数据的依赖,理想还构建了逼真的虚拟驾驶环境(世界模型)来进行强化学习训练,使模型经历各种极端场景。据官方消息,理想计划在2025年7月搭载英伟达Thor超级计算芯片的新车型上正式推出MindVLA驱动的城市NOA功能file-uz7vcksqhbm3ijjgd3gtkp。这将把国内智能驾驶带入一个新阶段——车辆具备了“语义理解”和“自主思考”能力,不再只是基于雷达和规则的机器执行器,而更像人类司机那样具备综合判断与学习进化能力。如果MindVLA验证成功,它还可推广到其他具身AI领域,如家用服务机器人等,实现一套大模型多用途,一举拓展理想汽车的AI版图。

小鹏汽车(中国)– 世界基座模型: 相比理想的务实路径,小鹏汽车在AI大模型上展现出更大的雄心。2023年下半年起,小鹏启动了代号为“世界基座模型”***的大模型研发计划,目标是构建一个能支撑汽车、机器人、飞行器的通用**AI模型。*

img

2025年4月,小鹏正式公布其正在训练一个 720亿参数 的超大规模自动驾驶模型。这个模型以LLM大语言模型为骨干,采用 2000万段驾驶视频Clip 数据进行多模态训练,并计划扩充至2亿段,使模型具备视觉理解、长链推理和动作生成三大能力。为解决车载算力不足,小鹏提出先在云端训练出一个巨型基座模型,然后通过蒸馏提取其精华,得到适配车端芯片的小模型部署——这一“云教大脑、车装小脑”的模式被称为“云端模型工厂”。小鹏已经搭建了国内最大规模的汽车AI算力集群(万卡GPU,≈10 EFLOPS),支持基座模型的预训练、RL微调、蒸馏和迭代,整套流程最快可实现5天一次的云端到车端版本升级。在新发布的G7车型上,小鹏采用了3颗自研的凌芯XPU(共2200 TOPS算力),首次宣称在车端本地运行 VLA+VLM 架构,实现两个芯片跑VLA感知决策,另一个芯片提供座舱对话的VLM支持。这意味着小鹏选择了重算力、端上智能的路线,有别于理想通过云端托管大模型、车端跑小模型的方案。小鹏世界基座模型的愿景是“让AI汽车拥有真正超越人类的认知和驾驶能力”。官方表示,借助大模型强大的链式推理**(CoT)能力,未来小鹏汽车可以处理任何场景的驾驶问题,甚至包括从未遇见过的新情况。同时,该模型定位为公司所有物理AI产品的通用底座,已应用于小鹏的飞行汽车、机器人项目中,实现一套模型多种终端共享。展望后续,小鹏计划通过不断增加模型参数和数据规模来验证AI **“规模法则”**在自动驾驶上的适用性(初步实验显示模型性能随参数数指数级提升)。小鹏的探索证明,在未来自动驾驶竞争中,算力和数据将是决胜关键:有足够资源投入大模型训练并能快速落地者,将在智能驾驶的智能水平上胜出。

img

img

*#06**系统部署与工程实现*

算力需求与部署形式: 由于VLA模型通常参数规模庞大、计算流程复杂,要在实际车辆中应用,需要慎重考虑算力部署方案。当前有两种主要模式:*车端部署**云端协同*。车端部署即将模型直接运行在车辆上的计算平台上,优点是实时性和可靠性高(不依赖网络),但受限于车载芯片算力和功耗。比如理想最初选择在车端运行一个2亿级别参数的VLA模型(22亿参数MindVLA经稀疏优化等效约2亿激活参数),以适配当前量产车型上的Orin X芯片。小鹏则干脆在新车上配备了三颗高算力芯片,使总算力达到2200 TOPS,从而在本地跑下两套VLA模型和一套VLM模型。这种“大算力上车”的做法成本较高,但换来了独立自主的AI“大脑”。另一种模式是云端协同,即将最重的模型部分部署在云服务器,由车辆上传感知信息到云端计算决策,再将结果发送回车执行。这类似于“云司机”辅助真实驾驶员。理想预计会采用这种思路,例如将超大的语言模型部分放在云端运行,仅在车端部署精简版模型用于基础感知控制。云端协同的好处是突破车载算力限制,可以用云上GPU集群跑超大模型,实现更强AI能力;缺点是对通信延迟和网络可靠性依赖高,一旦信号不佳可能影响实时性和安全。因此,一些折中方案是*车云结合***:将延迟不敏感的任务(如高层规划、语义理解)放云端,将需要高速响应的控制环放车端,二者通过****5G/V2X实时同步。这种架构能在一定程度上兼顾性能与实时,但需要车辆具备冗余安全设计以防网络故障。

模型压缩与优化: 无论采取何种部署,VLA模型都需经过专门的压缩优化才能满足嵌入式运行要求。一项关键技术是*知识蒸馏*训练一个小模型去模仿大模型的行为,使小模型在大量样本上输出与大模型尽可能接近的结果。通过蒸馏,小鹏成功将云端720亿参数基座模型的知识压缩进可上车的小模型中,并建立了“云端模型工厂”实现5天一次的快速迭代。另一个途径是*网络剪枝和量化*剪枝通过去除模型中不重要的连接和通道来减小规模,量化则将参数从32位浮点降低为8位甚至更低精度存储,以换取模型体积和推理计算的大幅下降。像Transformer这类模型,在不显著牺牲精度的情况下,经8-bit量化可将运行速度提升数倍,非常有利于在车规SoC上部署。理想汽车采用的稀疏注意力机制也可以视为一种剪枝技术:它让每个推理步骤只激活部分网络计算,从而降低平均计算量。此外,混合专家(MoE) 通过让不同数据流经模型中不同专家子网络,也减少了每次推理涉及的参数规模。再有,流水并行和异构计算也应用于提升推理效率。例如在多芯片系统中,可将VLA模型拆分到多颗SoC并行执行不同层级部分,或者利用专用AI加速器(如FPGA/ASIC)跑Transformer的矩阵乘法核心计算,以提高吞吐。小鹏自研的凌芯XPU据称针对Transformer做了优化,能够高效执行大模型推理。

数据闭环与持续迭代: 工程实现层面**,VLA车型通常需要配套数据闭环系统支持模型持续升级。首先是**数据采集与管理*车辆在道路上遇到的罕见场景(如特殊交通手势、事故现场等)通过车载系统记录下来上传云端,作为下一轮模型训练的素材。比如中国复杂的道路场景、本土驾驶习惯都需要海量本土数据来学习。企业会构建数据湖来存储并标注这些场景,用于定期更新模型。其次是*仿真测试******:**在部署新模型前,需在虚拟环境中对其进行回归测试,验证其在长尾场景下的决策安全性,如对极端天气、异形车辆等的应对。这方面世界模型(World Model)的引入可以大大增加模拟场景的多样性,加速模型的鲁棒性提升。此外,*OTA升级机制也是必不可少的工程部分:确保模型参数和推理代码可以通过空中下载方式更新到车辆。这要求严格的版本管理和安全措施,以防范篡改和故障。最后,考虑到VLA模型涉及驾驶决策,功能安全(ISO 26262)和预期功能安全(ISO 21448)流程也要引入,对模型的决策进行充分验证和监控。综合来看,部署一个VLA模型系统不仅是AI模型的落地,还需要*端到端的数据**-训练-部署闭环******体系作为支撑。**这也是为何VLA被称作“2.0时代”的自动驾驶技术方案——它更像一个持续演进的AI产品,而非静态编程的软件,因此需要新的工程范式与之匹配。

*#07**技术优势与挑战*

优势: 相较于传统感知+规则/端到端1.0系统,视觉-语言-动作模型在诸多方面展现出突破性的优点:

1、泛化性: 大模型基于海量多样数据训练,具备更强的分布外泛化能力。VLA模型在一个城市学到的经验,可以通过共享的视觉语言表示迁移到另一个城市、甚至迁移到其他平台(如由汽车迁移到机器人)。相反,传统方案往往需要针对每种车型、每个城市路况反复调试优化,难以适应新环境。VLA统一的架构使其“一专多能”:只要数据覆盖充分,一个模型可以应对多种任务,这将极大提升自动驾驶系统的可扩展性和复用率。

2、语义理解与决策合理性: 凭借内置的语言模型,****VLA拥有对场景更深层的理解能力。它不只是检测物体,更能理解场景中蕴含的语义信息和因果关系,例如识别出前方车辆打左转灯意味着其可能并线,行人伸手示意可能要过马路等。这种类人类的情境理解令VLA在应对复杂场景、罕见情况时更加游刃有余。元戎启行CEO周光曾指出,VLA利用全局信息和长时记忆进行推理,能够处理许多规则系统难以解决的长尾问题。更重要的是,语言模型可以让决策过程带有逻辑约束,例如基于交规常识避免做出非法或危险行为,提高了决策合理性。总体而言,VLA相当于为自动驾驶注入了**“思考能力”**,而不仅是模式匹配的反应器。

3、指令交互与可解释性: 传统自动驾驶系统几乎无法直接接受人类自然语言指令,****VLA则天生支持这一点。乘客可以通过语音或文本对VLA车辆下达高阶指令(如“请在前方便利店停车”),模型将其解析为相应的驾驶动作。这种人机交互能力大大提升了用户对自动驾驶的掌控感和便利性。另外,VLA模型还能实时给出决策的原因解释。例如在遇到施工绕行时,系统可能语音提示:“前方道路施工,正在变道绕过障碍”。这种透明度提高了用户信任,也便于工程师调试模型决策。相比之下,传统端到端模型和规则系统要么无法解释(黑箱神经网络),要么不善于用人类语言解释(代码逻辑晦涩)。VLA则架起了AI决策与人类认知之间的桥梁,让自动驾驶更加可信、可沟通

4、端到端统一训练: VLA模型将感知、预测和规划控制等功能融合到同一网络中,可以进行****统一的目标函数训练******。**这避免了传统多模块系统各自训练、误差累积的问题,从而提升整体性能上限和鲁棒性。例如,端到端训练可以让模型权衡感知错误和决策风险,学习到最优的整体策略。系统架构简化也降低了维护复杂度。尤其在去高精地图、弱化高清先验的趋势下,VLA统一模型不需要大量人工规则,开发迭代效率更高。模型可以通过不断的训练数据迭代自动改进,而不像规则系统需要人手调参。长远看,这种自学习的能力将使自动驾驶系统具备“自主演化”的潜力。

综上,VLA的优势可以总结为**:*更聪明、更灵活、更善于沟通*。它赋予车辆类似人类司机的直觉和知识,使得****AI驾驶从感知层面跃升到认知层面,为最终实现高度自动驾驶带来了全新可能性。**

挑战: 然而,VLA模型要真正落地,还面临一系列现实挑战,需要在技术和工程上加以克服:

1、数据获取与标注成本: **训练****VLA这样的大模型,需要极其庞杂且丰富的多模态数据。这不仅包括摄像头视频、雷达点云等感知数据,还需要同步的驾驶决策和语言注释数据(例如驾驶员的口述解说)来训练语言模块。完整场景下的多样化数据收集困难且昂贵。例如,一些稀少场景(暴雨、冰雹、动物穿行等)难以在公开数据集中找到,需要通过长期道路测试积累。即便有数据,给它们添加高质量的语言描述标签工作量巨大。而使用合成数据或仿真生成数据,往往又存在域差异,模型迁移到现实可能遇到性能落差。因此,如何高效获得覆盖“千奇百怪”**驾驶情境的数据,并利用弱监督、自监督降低标注需求,是VLA发展道路上的一大挑战。同时,数据中还可能夹带偏见和噪声,大模型容易捕捉到不良相关性,影响决策可靠性,这也需要在数据和训练策略上有所应对。

2、模型规模与算力瓶颈: VLA模型参数量往往达到数亿甚至数十亿级,比传统单功能DNN网络大出几个数量级。这带来了****存储和算力******的双重压力。**一方面,大模型在车端的加载和实时运行对车载计算平台提出了超乎以往的要求。例如,要在100毫秒内完成上百亿参数的前向推理,没有专用加速硬件难以想象。即使有高算力芯片,功耗和散热也是现实问题(汽车环境中电池供电,散热空间有限)。另一方面,这些模型在云端训练本身也耗费巨大资源。一轮完整训练可能需要上千GPU计算数周时间,对于多数企业是沉重负担。因此,模型压缩在VLA中非但不是可选项,而是必选项。然而过度压缩又可能损失模型性能,找到模型大小、性能和算力之间的最佳平衡点非常具有挑战。针对这一瓶颈,学术界和工业界已在探索一些方案,包括稀疏模型、高效Transformer结构(如线性注意力)、专用芯片设计等,但在完全满足车规应用方面仍有距离。未来一段时期,算力可能成为限制VLA模型效果和普及速度的主要短板之一。

3、实时性与安全性: 自动驾驶对系统实时性和可靠性要求极高,而大模型的引入潜在地提高了时延和不确定性风险。首先,即使经过优化,VLA模型往往只能勉强达到100ms量级的决策延迟,而人类的反应时间约在200ms量级,再考虑执行机构延迟,这个时间裕度已不算宽裕。如果遇到紧急情况,大模型可能还在“思考”文本语义,车辆已经需要采取动作了。因此如何保证VLA模型始终实时响应,包括在芯片过热降频或内存紧张时也不掉链子,是需要重点验证的。为此,一些系统会增加一个简单快速的“安全卫士”模块,专门检测碰撞风险,在大模型未及时反应时强制刹车避障。其次,大模型决策的鲁棒性和可验证性也是挑战。深度学习模型有时会出现异常行为(如对扰动敏感、罕见情况判断错误)。传统规则系统可以严格证明在已知条件下的安全性,但VLA这种黑箱模型很难用形式化方法验证正确性。这对监管和量产都是新课题:如何证明一个会“自由思考”的AI驾驶员在任何情况下都不会疯狂?这需要业界制定新的测试和验证标准,可能包括大规模Monte Carlo仿真、场景覆盖率分析、引入逻辑约束的可验证模型等。最后,多模态融合带来的新攻击面也是隐忧。例如,恶意的道路涂鸦或者错误的语音指令,可能误导VLA模型做出危险行为。这要求安全机制能够检测和屏蔽异常输入。此外,模型自身可能出现“幻觉解释”(给出看似合理但实际错误的原因解释),这也需要引入可信AI技术加以约束。总之,高可靠的安全保障是VLA大规模应用前必须跨越的门槛,需要在算法、数据和系统工程多方面协同改进。

*#08**未来展望*

作为智能驾驶领域的新生事物,视觉-语言-动作模型的未来充满想象空间,也伴随诸多未知。在可以预见的未来几年内,VLA将在自动驾驶和机器人两个领域持续融合演进,加速推动人类迈向通用具身智能的时代。

与世界模型的深度结合: 一大趋势是****VLA将与环境****世界模型*深度融合。世界模型可以理解为AI对所处物理环境的内部模拟器或记忆单元,它为VLA提供了“想象力”。正如理想在训练中利用虚拟3D环境辅助强化学习,未来的VLA系统可能内置一个实时更新的世界模型,让车辆可以一边行驶一边在脑海中预演多种可能状况。比如在做变道决策时,VLA可以通过世界模型模拟不同车速和间距下的结果,从中选择最安全的方案。这相当于给AI加了一个“沙盒”,极大提升决策的安全裕度和长远规划能力。NIO蔚来提出的 NIO World Model (NWM) 就是朝这方向努力,希望构建全量理解数据、重建物理世界的通用世界模型,与决策大模型共同进化。可以预期,*“VLA + 世界模型”**的组合将成为下一代自动驾驶架构的标配:前者负责策略生成,后者负责环境滚动预测,两者通过语言和视觉符号交互,形成类似人类思维中的想象与决策闭环。

迈向通用大模型: VLA的发展也将受益于通用人工智能(AGI)浪潮的推动。根据研究机构 EPOCH AI 的分析,纯语言大模型在2020年代末可能遇到边际效益递减,而多模态大模型被视为通往更高智能阶段的路径。自动驾驶作为极具挑战性的多模态问题,正是AGI技术验证的绝佳场景之一。我们预计未来会出现参数规模更大、模态更多元(加入语音、与车联网等)的通用驾驶模型。届时,不同车企甚至可以共享一些基础模型,就像今日共享开源的Llama模型一样,然后各自微调以适配不同驾驶风格和法规要求。这将加速行业创新,并降低开发门槛。当然,实现这种通用化还需要标准化数据格式和评测体系的建立。可以想见,行业或许会涌现出自动驾驶界的“ImageNet”,汇集全球不同环境的驾驶数据供大模型训练,从而催生真正举一反三、全球适应的驾驶AI。

软硬件协同进步: **VLA的未来离不开计算硬件的支持。目前制约其发挥的一个主要因素是车载算力和存储。**有理由相信,半导体厂商会针对VLA的需求开发新一代车规AI芯片,可能融合GPU+NPU架构,专门优化Transformer计算和大内存访问。例如 2025~2026 年的英伟达 Thor 及后续芯片,均号称为大模型落地打造。另一方面,车辆的电子电气架构(EEA)也会相应演进,朝着中央计算+区域控制的布局,以承载大模型运行所需的数据带宽。随着算力充裕,今天需要压缩蒸馏的模型将可以原汁原味地跑在车上,性能进一步提升。此外,5G/6G通信的发展也将使车云协同更加实时可靠,为云端大模型赋能车端提供可能。理想的愿景是,当基础设施成熟时,汽车就像智能手机使用云AI服务一样,可以随时调用云端超大模型的能力(例如询问云端交通大脑建议路线等),那时“车载模型+云端模型”将相互配合,实现性能和成本的优化组合。

多行业协同效应: **VLA模型的进步不会局限在汽车领域,还会反哺机器人、AR/VR等其他具身智能应用。**例如,机器人公司在研发通用家务机器人时,也需要处理视觉、语言和动作的协同(类似Helix所做的)。汽车领域在感知和安全上的严苛要求,可以催生更高精度的视觉模型和更可靠的多模态决策算法,这些技术完全可以移植到机器人,让后者在复杂家庭环境中更安全地与人互动反过来,机器人领域探索的新型架构(如Kahneman系统1/2、大模型与控制器解耦等)也会为汽车借鉴。未来或许会出现“一种VLA模型,多种载体使用”的局面——汽车、无人机、机器人共享底层AI模型,各自加上特定执行器接口即可运作。届时,不同行业的界限将变得模糊,取而代之的是围绕“通用具身智能体”的生态。对于普通大众,这意味着AI将更深入地融入日常生活的各种场景,从道路出行到家庭服务都体现出类人智能。而对于企业和投资者,则孕育着巨大的跨界合作与市场机会。

无论技术名目如何变化,实现“通用、安全、可交流的驾驶智能”这一终极目标不变。VLA的出现让我们离这个目标又近了一步。展望未来,当车辆真正拥有了理解环境、与人沟通并自主学习成长的能力,人类交通出行方式将被彻底重塑——那将是一个更加安全高效、人与AI和谐共驾的新时代。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐