AerialVLN：基于门控循环单元（GRU）和跨模态注意力的无人机视觉语言导航模型

此工作的主要贡献：（1）提出一种无人机视觉语言导航数据集，收集25个不同的城市级环境，涵盖市中心、工厂、公园和村庄等各种场景，包括870多种不同类型的对象，总共8446条飞行路径，每条路径与注释中的3条指令对齐，子路径与子指令对齐，每条指令中最多有83个单词，涉及4470个词汇；（2）提出一种起始基线模型，该模型基于门控循环单元（GRU）和跨模态注意力CMA。

LFM3320829529

1491人浏览 · 2025-02-18 21:20:06

LFM3320829529 · 2025-02-18 21:20:06 发布

前言

此工作的主要贡献：

（1）提出一种无人机视觉语言导航数据集，收集25个不同的城市级环境，涵盖市中心、工厂、公园和村庄等各种场景，包括870多种不同类型的对象，总共8446条飞行路径，每条路径与注释中的3条指令对齐，子路径与子指令对齐，每条指令中最多有83个单词，涉及4470个词汇；

（2）提出一种起始基线模型，该模型基于门控循环单元（GRU）和跨模态注意力CMA。

一、数据集收集

1.1 收集背景

空中导航与地面导航的不同之处：

（1）空中导航空间行动更大，需要额外考虑上升、下降等动作；

（2）空中的室外环境更大，也更复杂；

（3）空中导航需飞行的路径更长；

（4）在空中飞行必须学会避免被3D空间中的物体卡住。

1.2 收集策略

数据收集过程包含两个主要步骤：路径生成和指令收集：

1.2.1 路径生成的方式：

（1）由人类操作员完成飞行，从而完成采集；

（2）路径生成的输出包括一系列带时间戳的6-DoF多旋翼姿态，然后将路径离散化为元动作，如“左转”和“前进”以进行训练

1.2.2 指令收集的方式：

（1）展示无人机飞行的视频，要求注释器给出自然语言命令；

（2）为了丰富语言多样性并减少偏见，每个视频都由三个注释者分别注释；

（3）为了验证数据质量，所有收集到的指令都由另一组工作人员手动检查。

1.3 数据集结构

下图展示了AerialVLN/AerialVLN-S数据集和其他数据集的比较：

下图展示了两类数据集AerialVLN和AerialVLN-S的组成：

其中两类数据集分别的用处：

（1）使用AerialVLN来解决看不见的环境中的长路径长度3D VLN任务，并专注于长时间视野和稀疏奖励下的动作学习研究；

（2）使用AerialVLN-S作为第一人称视角下一般3D无人机VLN任务的基准。

二、模型整体框架

2.1 任务描述

（1）开始时，代理被放置在初始位置 $P=\begin{bmatrix} x, y, z, p, r, y{}' \end{bmatrix}$ ，其中 $(x, y, z)$ 表示代理的位置， $(p, r, y{}')$ 表示代理方向的俯仰、横滚和偏航部分；

（2）给出自然语言指令 $X=< \omega _{1}, \omega _{2}, ..., \omega _{L}>$ ，需要代理预测一系列动作；

（3）代理访问其前视图（深度和RGB） $V_{t}=\begin{Bmatrix} v^{R}_{t}, v^{D}_{t}\end{Bmatrix}$ 。代理需要旋转以获得其他视图;

（4）当代理预测到停止操作或达到预定义的最大操作数时，导航结束。

2.2 模型介绍

模型的整体框架如下图所示：

可以看出，主要由以下几部分组成：

（1）深度图像编码器；

（2）RGB图像编码器；

（3）文本编码器；

（4）深度图像注意力模块；

（5）RGB图像注意力模块；

（6）文本注意力模块；

（7）门控循环单元1——跟踪视觉观察；

（8）门控循环单元2——决策制定

三、难点

3.1 跟踪视觉观察

第一个门控循环单元可以用以下方程表示：

其中：

， $\nu _{t}$ 为经过ResNet50后的RGB视觉特征， $\bar{\mathbf{v}}_{t}$ 为将 $\nu _{t}$ 平均池化后的结果；

， $\bar{\mathbf{d}}_{t}$ 为将经过ResNet50后的深度视觉特征展平后的结果；

，为先前动作的学习线性嵌入。

3.2 决策制定

使用双向LSTM对指令进行编码，并保留所有中间隐藏状态：

得到 $S$ 后，使用文本注意力模块，计算文本特征：

同样地，使用RGB图像注意力模块，计算RGB特征：

同样地，使用深度图像注意力模块，计算深度特征：

以上的注意力模块均为self-attention点积注意力，对于一个查询，可以通过下式计算得出：

其中

得到上述各部分后，第二个循环网络将以上特征的串联作为输入（包括动作编码和第一个循环网络的隐藏状态），并预测动作：

四、总结

目前不懂的地方：

（1）Bi-LSTM的输出和中间隐藏状态分别是什么？

（2）门控循环单元GRU的作用是什么？可否不使用它或用其他组件代替它？

（3）能不能直接使用Transformer来计算交叉注意力？

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模