• 作者:Xinyu Xu, Shengcheng Luo, Yanchao Yang, Yong-Lu Li, Cewu Lu 上海交通大学,香港大学

  • 原文链接:DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control (https://link.springer.com/chapter/10.1007/978-3-031-72649-1_7)

  • 代码链接:https://github.com/AllenXuuu/DISCO

主要贡献

  • 动态场景表示:论文提出了动态的场景表示方法,能够在运行时动态学习对象和可供性的丰富语义,有助于地图导航规划。

  • 双层控制框架:提出了一种结合全局和局部线索的双层粗到细控制方法,能够在有限的数据下高效完成移动操作任务。

  • 多模态输入集成:DISCO能够轻松集成到具身指令跟随等应用中,利用自然语言指令完成长距离视觉语言导航和交互任务。

  • SOAT:在ALFRED基准测试中,DISCO达到了SOAT水平,显著提升了在各种场景下的性能。

研究背景

研究问题

论文主要解决的问题是如何通过人类指令构建一个通用的智能家居助手代理,使其能够在多样化的任务中进行导航和交互。具体来说,研究了基于verb-noun pair的原始移动操作,即如何根据指令进行导航和交互。

研究难点

该问题的研究难点包括:任务规划、环境建模和对象交互。现有的神经策略和基于地图的规划方法在处理长距离任务和动态环境时存在局限性。

相关工作

该问题的研究相关工作有:神经策略、基于地图的规划、大型语言模型(LLMs)在移动操控中的应用等。这些方法在数据需求和灵活性方面存在不足。

研究方法

论文提出DISCO(Differentiable Scene Semantics and Dual-level Control)用于解决基于verb-noun pair指令的移动操作问题。具体来说,

场景表示学习

提出了一种动态的场景表示学习方法,能够在线学习对象和可供性的丰富语义。场景被离散化为多个网格,每个网格分配一个嵌入向量。通过梯度下降优化场景表示,使其与局部点云语义匹配: 其中,是第个网格中的定位点,是其中的第j类语义点,是软网格级语义标签。

由粗到细的动作控制

提出了一种两级控制方法,结合全局和局部线索进行粗颗粒度到细颗粒度的控制。粗颗粒度控制依赖于全局语义地图来粗略接近目标,使用广度优先搜索(BFS)算法规划轨迹。细颗粒度控制则利用基于局部视觉帧的神经网络进行精细调整,通过神经网络预测短视域动作。具体包括以下步骤:

  • 随机行走:如果对象从未被检测到,代理从导航查询中获取可导航性地图,使用广度优先搜索(BFS)算法规划轨迹。

  • 粗颗粒度控制:一旦检测到对象,代理使用基于地图的粗控制导航到目标附近。通过查询场景表示获取所有网格的语义对象和可供性概率图,选择对象-可供性联合概率最大的网格作为目标。

  • 细颗粒度控制:基于局部视觉帧的神经网络调整代理方向以指向目标对象,使用ResNet50编码特征,通过对象特定的分类器生成动作。

具身指令跟随应用

将DISCO应用于具身指令跟随任务。通过自然语言指令生成子目标计划,并使用微调后的BERT解析自然语言指令。

实验

数据收集

通过AI2THOR模拟环境中的查询收集高质量数据,包括深度传感器提供的真实深度、85类对象的实例分割和可供性信息。

实验设置

在ALFRED基准上进行评估,数据集分为训练、验证和测试集,分别包含21,023、1,641和3,062个episode。

参数配置

Mask R-CNN和U-Net分别使用AdamW优化器进行训练,学习率分别为2e-4和1e-3,批量大小分别为60和80。细控制策略使用AdamW优化器,学习率为5e-5,训练40个epoch,批量大小为100。

结果与分析

  • 定量结果:在ALFRED测试集中,DISCO在有无步骤指令的情况下均表现出色。在有步骤指令的情况下,成功率达到59.5%(未见场景)和56.5%(已知场景),相比现有方法有显著提升。

  • 消融研究:通过消融实验验证了DISCO各组件的有效性。增强的多模态输入、可微表示、可供性和双层控制均显著提高了性能。去除可微表示后,成功率下降了9.9%(已知场景)和12.3%(未见场景)。

  • 定性结果:展示了DISCO在可供性和双层控制方面的应用效果。DISCO能够自动检测开放属性并促进交互,粗控制结合细控制能够灵活应对各种情况。

总结

论文提出的DISCO方法通过动态学习丰富的对象和可供性语义场景表示,结合双层粗到细的动作控制,实现了高效的移动操作。在ALFRED基准上的实验结果表明,DISCO在未见场景中的成功率达到了58.0%,相比现有方法有显著提升,建立了新的最先进性能。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐