迈向具身智能：EMBODIEDBENCH如何重塑多模态大模型的评估范式

EMBODIEDBENCH的价值不仅在于揭示当前MLLMs的局限，更在于为具身智能研究提供了指南针。通过层次化任务设计和细粒度能力评估，研究人员得以精准定位模型短板，进而推动算法创新。从家庭助手到工业机器人，具身智能的落地离不开这种科学的评估范式——正如论文作者所言，“我们的基准不仅是一面镜子，更是一把钥匙，开启通往更强大具身智能的大门。

这是Jamon

774人浏览 · 2025-07-01 06:50:40

这是Jamon · 2025-07-01 06:50:40 发布

论文地址：https://openreview.net/attachment?id=DgGF2LEBPS&name=pdf

迈向具身智能：EMBODIEDBENCH如何重塑多模态大模型的评估范式

在人工智能领域，具身智能（Embodied Intelligence）正成为连接虚拟智能与物理世界的关键桥梁。想象一个能理解人类指令、感知周围环境并执行复杂动作的机器人助手，它不仅需要强大的语言理解能力，还需将视觉感知与物理操作完美结合。然而，评估这类系统的能力一直是个难题——直到EMBODIEDBENCH的出现。

具身智能：从语言到物理世界的鸿沟

传统的多模态大语言模型（MLLMs）在文本理解和图像识别任务中已展现出惊人能力，但当被要求在真实或模拟环境中执行具身任务时，其局限性暴露无遗。从收拾房间到操控机械臂，这类任务需要模型将抽象指令转化为精确的物理动作序列，这对现有评估框架提出了严峻挑战。

现有的评估基准要么局限于单一任务类型（如仅关注 household 任务），要么缺乏对模型核心能力的细粒度评估。例如，VisualAgentBench虽覆盖多领域任务，但仅停留在高级规划层面，无法揭示模型在低级操控（如机械臂精确移动）中的缺陷。这种评估缺口导致研究人员难以准确把握MLLMs在具身智能中的真实能力边界。
在这里插入图片描述

EMBODIEDBENCH：多维度评估框架的革新

任务设计：从高级语义到低级操控的全覆盖

EMBODIEDBENCH的核心创新在于其层次化任务设计，覆盖从高级语义理解到低级物理操控的全 spectrum。该基准包含四大环境，总计1128个测试任务：

EB-ALFRED：基于经典ALFRED数据集，聚焦家庭场景中的高级任务分解，如"将洗好的生菜放入冰箱"，评估模型对复杂指令的规划能力。
EB-Habitat：利用Habitat 2.0模拟器，引入更具挑战性的物体重排任务，要求模型在受限导航条件下完成目标。
EB-Navigation：专注于低级导航能力，测试模型在仅依赖视觉输入的情况下，如何规划路径到达目标物体。
EB-Manipulation：最具挑战性的环境，要求模型通过7维动作向量精确控制机械臂，完成抓取、堆叠等精细操作。

这种设计让研究人员能同时评估模型在"找苹果"（高级）和"控制机械臂抓取苹果"（低级）任务中的表现，揭示能力断层。
在这里插入图片描述

能力导向：细粒度评估六大核心维度

在这里插入图片描述

不同于传统基准仅关注整体准确率，EMBODIEDBENCH引入六大能力子集，实现对模型的深度诊断：

基础任务解决（Base）：评估基础动作序列规划能力
常识推理（Common Sense）：测试模型通过间接描述识别物体的能力（如"能保鲜食物的容器"指代冰箱）
复杂指令理解（Complex Instruction）：在冗长或干扰性上下文中提取用户意图
空间感知（Spatial Awareness）：通过相对位置描述定位物体（如"将右侧圆柱体放在左侧星形物体上"）
视觉外观（Visual Appearance）：基于颜色、形状等视觉属性识别物体
长程规划（Long Horizon）：处理需要15步以上动作序列的复杂任务

这种细粒度评估揭示了模型的"能力图谱"——例如，GPT-4o在高级任务中表现优异，但在长程规划和低级操控中举步维艰。

实验发现：MLLMs的能力边界与突破方向

高级任务vs低级操控：冰火两重天

在对24个主流MLLMs的评估中，一个显著现象是模型在高低级任务中的表现分化。 proprietary 模型如GPT-4o在高级任务（EB-ALFRED、EB-Habitat）中平均成功率超过55%，而在低级操控任务（EB-Manipulation）中仅为28.9%。开源模型如InternVL3-78B虽在低级任务中紧追GPT-4o（26.3%），但整体仍存在差距。

这种分化源于模型训练数据的偏差——现有MLLMs多在互联网文本和图像数据上训练，缺乏与物理世界交互的经验。例如，在EB-Manipulation中，模型需要将"抓起星形物体放入银色容器"转化为精确的7维动作向量，这要求对空间坐标、机械臂动力学有深刻理解，而这正是当前模型的短板。

视觉的双重角色：低级任务的生命线

实验揭示了视觉输入在不同任务中的差异化影响：在低级导航和操控任务中，移除视觉输入会导致模型性能暴跌40%-70%，而高级任务受影响较小。例如，GPT-4o在EB-Navigation中无视觉输入时成功率从57.7%骤降至17.4%，长程规划任务更是直接归零。

这一发现颠覆了"视觉在高级任务中起辅助作用"的传统认知——实际上，低级任务的每一步决策都依赖视觉反馈，而高级任务可能通过语言先验知识部分弥补视觉缺失。这为模型设计提供了方向：未来需强化MLLMs的视觉-动作映射能力，尤其是在低级操控场景中。

长程规划：具身智能的"阿喀琉斯之踵"

所有模型在长程规划任务中表现最差，成功率较基础任务平均低30%以上。例如，Claude-3.5-Sonnet在EB-Habitat基础子集成功率达96%，但在长程子集骤降至58%。这种"步数诅咒"源于模型的记忆衰减和错误累积——随着动作序列变长，模型难以维持对全局目标的追踪，常因局部错误导致整个任务失败。

解决这一问题可能需要引入层次化规划架构，将长任务分解为可管理的子目标，同时增强模型的历史交互记忆能力。

从评估到设计：EMBODIEDBENCH的实践启示

视觉增强策略：分辨率与标注的权衡

在这里插入图片描述

通过消融实验，研究团队发现视觉输入的优化策略对模型表现至关重要：

分辨率选择：500×500像素是平衡点——过低分辨率丢失细节（如物体颜色、形状），过高分辨率引入冗余信息，均导致性能下降。
检测框标注：在EB-Manipulation中，添加YOLO检测框使GPT-4o成功率提升12.5%，但在EB-Navigation中因遮挡关键路径线索反而降低性能。
视觉上下文学习（Visual ICL）：将成功动作对应的视觉场景作为上下文示例，可使Claude-3.5-Sonnet在EB-Manipulation中提升16.7%，证明视觉示范的有效性。

模型架构优化方向

在这里插入图片描述

基于评估结果，未来具身智能模型可在以下方向突破：

分层规划机制：分离高级语义理解与低级动作生成，如使用MLLM处理指令理解，专用模块处理动作参数优化。
视觉-语言-动作联合训练：在训练数据中增加具身交互轨迹，强化视觉感知与动作执行的映射。
记忆增强：引入历史交互缓存，帮助模型在长程任务中维持目标一致性。
环境反馈整合：将物理环境的实时反馈（如碰撞检测、动作有效性）融入模型推理过程。

未来展望：具身智能的下一个前沿

EMBODIEDBENCH不仅是一个评估工具，更勾勒出了具身智能研究的未来路线图：

任务多样性扩展：从家庭场景拓展至自动驾驶、工业操控、人机协作等更复杂环境，如模拟工厂流水线中的零件装配任务。
多模态融合深化：探索音频、触觉等更多模态的整合，例如通过触觉反馈优化机械臂抓取力度。
真实世界迁移：当前评估限于模拟环境，未来需建立标准化的真实物理测试平台，弥合模拟与现实的差距。
鲁棒性与泛化性：设计对抗性场景（如动态障碍物、传感器噪声），评估模型在非理想条件下的表现。

结语：评估驱动的具身智能进化

EMBODIEDBENCH的价值不仅在于揭示当前MLLMs的局限，更在于为具身智能研究提供了指南针。通过层次化任务设计和细粒度能力评估，研究人员得以精准定位模型短板，进而推动算法创新。从家庭助手到工业机器人，具身智能的落地离不开这种科学的评估范式——正如论文作者所言，“我们的基准不仅是一面镜子，更是一把钥匙，开启通往更强大具身智能的大门。”

随着EMBODIEDBENCH的开源（代码与数据集已上线https://embodiedbench.github.io），整个研究社区将拥有统一的评估标准，这必将加速具身智能的研究进程，推动AI从"理解世界"迈向"交互世界"的新台阶。在这个过程中，每一次评估结果的反馈，都将成为模型进化的阶梯，最终实现人工智能与物理世界的无缝衔接。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r