前言

此工作的主要贡献:

(1)提出一种无人机视觉语言导航数据集,收集25个不同的城市级环境,涵盖市中心、工厂、公园和村庄等各种场景,包括870多种不同类型的对象,总共8446条飞行路径,每条路径与注释中的3条指令对齐,子路径与子指令对齐,每条指令中最多有83个单词,涉及4470个词汇;
 
(2)提出一种起始基线模型,该模型基于门控循环单元(GRU)和跨模态注意力CMA。


一、数据集收集

1.1 收集背景

空中导航与地面导航的不同之处:

(1)空中导航空间行动更大,需要额外考虑上升、下降等动作;

(2)空中的室外环境更大,也更复杂;

(3)空中导航需飞行的路径更长;

(4)在空中飞行必须学会避免被3D空间中的物体卡住。


1.2 收集策略

数据收集过程包含两个主要步骤:路径生成和指令收集:

1.2.1 路径生成的方式:

(1)由人类操作员完成飞行,从而完成采集;

(2)路径生成的输出包括一系列带时间戳的6-DoF多旋翼姿态,然后将路径离散化为元动作,如“左转”和“前进”以进行训练

1.2.2 指令收集的方式:

(1)展示无人机飞行的视频,要求注释器给出自然语言命令;

(2)为了丰富语言多样性并减少偏见,每个视频都由三个注释者分别注释;

(3)为了验证数据质量,所有收集到的指令都由另一组工作人员手动检查。


1.3 数据集结构

下图展示了AerialVLN/AerialVLN-S数据集和其他数据集的比较:

下图展示了两类数据集AerialVLNAerialVLN-S的组成:

其中两类数据集分别的用处:

(1)使用AerialVLN来解决看不见的环境中的长路径长度3D VLN任务,并专注于长时间视野和稀疏奖励下的动作学习研究;

(2)使用AerialVLN-S作为第一人称视角下一般3D无人机VLN任务的基准。


二、模型整体框架

2.1 任务描述

(1)开始时,代理被放置在初始位置P=\begin{bmatrix} x, y, z, p, r, y{}' \end{bmatrix},其中(x, y, z)表示代理的位置,(p, r, y{}')表示代理方向的俯仰、横滚和偏航部分;

(2)给出自然语言指令X=< \omega _{1}, \omega _{2}, ..., \omega _{L}>,需要代理预测一系列动作;

(3)代理访问其前视图(深度和RGB)V_{t}=\begin{Bmatrix} v^{R}_{t}, v^{D}_{t}\end{Bmatrix}。代理需要旋转以获得其他视图;

(4)当代理预测到停止操作或达到预定义的最大操作数时,导航结束。


2.2 模型介绍

模型的整体框架如下图所示:

可以看出,主要由以下几部分组成:

(1)深度图像编码器;

(2)RGB图像编码器;

(3)文本编码器;

(4)深度图像注意力模块;

(5)RGB图像注意力模块;

(6)文本注意力模块;

(7)门控循环单元1——跟踪视觉观察;

(8)门控循环单元2——决策制定


三、难点

3.1 跟踪视觉观察

第一个门控循环单元可以用以下方程表示:

其中:

\nu _{t}为经过ResNet50后的RGB视觉特征,\bar{\mathbf{v}}_{t}为将\nu _{t}平均池化后的结果;

\bar{\mathbf{d}}_{t}为将经过ResNet50后的深度视觉特征展平后的结果;

,为先前动作的学习线性嵌入。


3.2 决策制定

使用双向LSTM对指令进行编码,并保留所有中间隐藏状态:

得到S后,使用文本注意力模块,计算文本特征:

同样地,使用RGB图像注意力模块,计算RGB特征:

同样地,使用深度图像注意力模块,计算深度特征:

以上的注意力模块均为self-attention点积注意力,对于一个查询可以通过下式计算得出:

其中

得到上述各部分后,第二个循环网络将以上特征的串联作为输入(包括动作编码和第一个循环网络的隐藏状态),并预测动作:


四、总结

目前不懂的地方:

(1)Bi-LSTM的输出和中间隐藏状态分别是什么?

(2)门控循环单元GRU的作用是什么?可否不使用它或用其他组件代替它?

(3)能不能直接使用Transformer来计算交叉注意力?

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐