Abstract
视觉语言导航(Vision-Language Navigation, VLN旨在通过利用语言指令与视觉线索来引导智能体行动,在具身智能(Embodied AI)领域中发挥着关键作用。相比之下,室内VLN已经得到了广泛研究,而室外的**空中视觉语言导航(Aerial VLN)**仍然鲜有探索。其潜在原因在于:室外空中视角涵盖范围广阔,数据采集过程更加困难,从而导致缺乏相关基准数据集。
为了解决这一问题,我们提出了OpenFly——一个集成多种渲染引擎、灵活工具链及大规模基准数据集的空中VLN平台。
首先,我们整合了多样化的渲染引擎与先进的环境模拟技术,包括Unreal Engine、GTA V、Google Earth以及三维高斯点云渲染(3D Gaussian Splatting, 3D GS)。特别地,3D GS支持从真实到仿真的渲染(real-to-sim rendering),进一步增强了环境的真实感。
其次,我们开发了一套高度自动化的空中VLN数据采集工具链,实现了点云采集、场景语义分割、飞行轨迹生成与语言指令生成等流程的自动化处理。
第三,基于该工具链,我们构建了一个包含10万条飞行轨迹的大规模空中VLN数据集,覆盖18个场景中不同的飞行高度与路径长度。
此外,我们提出了OpenFly-Agent,一种**关键帧感知(keyframe-aware)**的VLN模型,能够在飞行过程中聚焦关键观测信息。
在基准测试方面,我们进行了大量实验与分析,评估了多种最新VLN方法,验证了OpenFly平台与OpenFly-Agent模型的优越性能。平台的工具链、数据集及代码将全面开源。
关键词: 空中视觉语言导航(Aerial Vision-Language Navigation, VLN);基准数据集;工具链
Introduction
具身智能(Embodied AI)近年来引起了越来越多的研究兴趣,其中视觉语言导航(Vision-Language Navigation, VLN)是核心任务之一,其目标是根据语言指令与视觉观测来引导智能体到达目标位置。近些年来,研究者们陆续构建了多个VLN数据集,例如TouchDown [1]、REVERIE [2]、R2R [3]、RxR [4]、CVDN [5]、VLN-CE [6]以及LANI [7],这些数据集极大地促进了一系列VLN方法的发展 [8–16]。
然而,所有现有研究几乎都专注于室内环境或地面智能体,而忽视了无人机(Unmanned Aerial Vehicles, UAVs)在航拍、救援任务、货物运输等场景中的重要作用。
近期,AerialVLN [17] 与 OpenUAV [18] 通过利用无人机仿真平台,在空中VLN数据集构建方面取得了显著进展,从而大大推动了该领域的发展。然而,目前仍然存在若干亟待解决的挑战:
-  数据多样性不足。 
 现有方法主要依赖AirSim与 Unreal Engine (UE) 来控制无人机,使其只能使用这些平台所兼容的数字资产,从而限制了可用数据的多样性,也制约了更高仿真度(photorealistic)数据源的潜在利用。
-  数据采集效率低。 
 当前轨迹生成过程依赖人工操作无人机在仿真环境中飞行,并需手动标注语言指令。整个流程劳动密集、耗时长且难以扩展,限制了大规模数据集的构建效率。
-  数据规模不足。 
 现有空中VLN数据集的规模仍然较小,通常仅包含约1万条飞行轨迹,与具身操作类(embodied manipulation)数据集相比差距显著。
 例如,Open X-Embodiment [19]已收集超过100万条操作任务数据(1M episodes),这大大加速了视觉-语言-动作(Vision-Language-Action, VLA)模型的发展。
为了解决上述问题,我们提出了OpenFly——一个综合性的平台,集成了多样化的渲染引擎、灵活的工具链以及大规模的空中VLN基准数据集。
为了提升数据多样性,该平台基于多种广泛使用的渲染引擎与先进技术构建,包括Unreal Engine (UE)、GTA V、Google Earth以及三维高斯点云渲染(3D Gaussian Splatting, 3D GS),从而能够利用丰富多样的资产资源(如图1所示)。特别地,我们使用无人机(UAV)采集了大量真实世界图像,并将3D GS技术集成至平台中,以实现逼真的三维场景重建,从而支持从真实到仿真(real-to-sim)的环境模拟。
为提高数据采集效率,我们开发了一套多功能的自动化空中VLN数据生成工具链(如图2所示)。具体流程如下:
 首先,进行点云采集以获取场景的三维占据信息;
 接着,执行场景语义分割,以识别并选择关键地标(landmarks)作为飞行轨迹上的路径点;
 在此基础上,利用预定义的飞行动作作为基本单元,结合地标与点云数据,自动搜索无碰撞飞行轨迹,完成轨迹生成;
 最后,将生成的飞行轨迹及对应的无人机自我中心视角图像(UAV-egocentric images)输入到视觉语言模型(Vision-Language Model, VLM),例如GPT-4o,自动生成语言指令。
整个流程实现了高度自动化,显著减少了对人工无人机操作员与标注人员的依赖。
为构建大规模数据集,我们精心采集了18个高质量场景,并在不同高度与路径长度下生成了多样化的飞行轨迹。得益于该工具链的高效性,我们能够快速构建规模达10万条轨迹(100k samples)的空中VLN数据集,其规模远超现有同类数据集。
此外,我们提出了OpenFly-Agent,一种关键帧感知(keyframe-aware)的空中VLN模型。该模型引入了自适应帧级采样机制(adaptive frame-level sampling mechanism),以聚焦飞行过程中至关重要的视觉观测信息。值得注意的是,这种关键帧采样机制对于空中VLN的视觉编码至关重要,因为无人机飞行速度快、观测变化迅速。
我们在OpenFly数据集上进行了大量实验,评估了多种现有方法,建立了一个全面的空中VLN基准。
总体而言,本文的主要贡献可概括如下:
- 多引擎与多功能工具链集成:我们基于多个渲染引擎构建了OpenFly平台,并开发了灵活的工具链,实现了高多样性与高效率的数据自动生成。
- 大规模空中VLN基准数据集:我们构建了一个包含18个高质量场景、共10万条飞行轨迹的新型空中VLN数据集。据我们所知,这是迄今为止规模最大的空中VLN基准数据集,用户也可利用OpenFly平台采集定制化数据。
- 关键帧感知VLN模型:我们提出的OpenFly-Agent模型通过关键帧采样机制实现了更高效的视觉编码。大量实验结果表明,其性能显著优于现有方法。
一个是数据收集自动化,一个是关键帧的采样VLN
Related Works
Vision-Language Navigation Datasets
近年来,研究者们提出了众多数据集以加速视觉语言导航(Vision-Language Navigation, VLN)任务的发展。
R2R [3] 数据集主要聚焦于在未见过的建筑环境中评估智能体的导航能力,并提供离散化的导航选项。
 RxR [4] 则在此基础上提供了一个标注更密集的VLN数据集。
 TouchDown [1] 和 REVERIE [2] 均基于真实场景环境构建数据集,要求地面智能体根据语言指令导航并找到目标物体。
 CVDN [5] 提出了一个协作式VLN数据集,其中智能体在推理过程中可以访问人类协作历史信息。
上述所有数据集均为基于图结构(graph-based)的设计,即可导航点(navigable points)在环境中是预定义的。
 LANI [7] 和 VLN-CE [6] 则进一步将VLN任务扩展至连续的室外/室内环境,允许智能体自由移动至任何无遮挡的点位,从而提升了导航的连续性与真实性。
近年来,部分研究开始尝试构建空中(aerial)VLN数据集。
 例如,ANDH [20] 构建了一个基于对话形式的空中VLN数据集,采用鸟瞰视角图像(bird-view images)作为视觉输入;
 CityNav [21] 则基于SensatUrban [22] 提供的点云数据与CityRefer [23] 的语言标注信息构建数据集,要求智能体结合真实二维地图(2D map)定位指令中提到的特定地标。
 此外,AerialVLN [17] 和 OpenUAV [18] 将AirSim与Unreal Engine (UE) 相结合,用于构建可供无人机(UAV)飞行的VLN场景,使得操作员能够手动控制无人机生成多样化的飞行轨迹。
Vision-Language Navigation Methods
视觉语言导航(Vision-Language Navigation, VLN)方法要求智能体能够基于视觉观测(visual observations)去理解并执行语言指令(language instructions)。
在早期的基于图结构(graph-based)研究中 [24, 25, 26, 27],智能体在预定义的图节点之间进行移动。
近年来,随着大语言模型(Large Language Models, LLMs)推理能力的提升,出现了许多LLM驱动的VLN方法 [28–31]。这些方法利用LLM的推理能力来预测下一个导航节点。尽管这类方法取得了显著进展,但由于依赖预定义图结构,它们仍难以应用于真实的未知环境。
与之相对,部分研究 [32, 33, 34, 16] 探索了连续环境(continuous environments)下的VLN任务,使智能体能够在更接近现实的场景中进行导航,从而提升应用的实用性与泛化性。
近期,一些工作开始尝试在无人机(UAV)平台上解决空中VLN任务。其中,AerialVLN [17] 提出了前瞻式引导(lookahead guidance)方法,用于在训练过程中生成更合理的真实轨迹(ground-truth trajectories);
 STMR [35] 设计了一种矩阵表示(matrix representation),以增强大语言模型在空间推理(spatial reasoning)方面的能力;
 而OpenUAV [18] 则引入了与真实轨迹(Ground Truth, GT)对齐的人类辅助信息(human assistance),以进一步提升导航精度与稳定性。
Automatic Data Generation
在本节中,我们首先介绍若干渲染引擎和数据资源,然后展示所开发的工具链。整个自动化数据生成框架如图2所示。
渲染引擎与数据资源
Unreal Engine(UE)
 UE是一种能够提供高逼真度虚拟环境的渲染引擎。我们精心选择了8个城市场景,总覆盖面积超过100平方公里。这些场景包含多种资产,如建筑物、街道、交通信号灯、车辆和行人,涵盖了多样化的建筑风格。
GTA V
 GTA V是一款开放世界游戏,由于其环境高度逼真,常被研究人员用作视觉与导航任务的研究平台。游戏中的城市景观以洛杉矶为原型精心建模,包含摩天大楼、加油站、公园、广场等多种建筑与地标,为视觉导航提供了丰富的环境元素。
Google Earth
 Google Earth是一款虚拟地球软件,通过整合卫星影像和航空摄影数据构建出三维地球模型。在本研究中,我们从该引擎中选择了四个城市场景,总覆盖面积达53.60平方公里,分别为伯克利(Berkeley)、大阪(Osaka)、华盛顿特区(Washington, D.C.)和圣路易斯(St. Louis)。
三维高斯点云渲染(3D Gaussian Splatting, 3D GS)
 3D GS在逼真场景重建中表现出色,能够捕捉复杂纹理并生成高度细致、逼真的虚拟环境,从而显著提升数字场景的真实感。基于这一特性,我们采用了分层式的3D GS方法 [36] 来重建并渲染多个真实场景。
 在实际操作中,我们使用无人机(UAV)在三所大学的五个校区采集数据,这些校园场景包含多种类型与风格的地标,如图书馆、钟楼、水道、湖泊、操场、施工区域和草坪等。
关于渲染引擎、数据资源及示例的更多细节,可参见附录A。
仿真在上述平台仿真,实物数据则在三个大学采集相似数据
Toolchain for Automatic Data Collection
为实现自动化数据生成,我们首先将上述渲染引擎进行了集成,并设计了三个统一接口,用于控制智能体的移动与传感器数据的采集(接口设计详见附录C)。基于这些接口,我们进一步开发了一套自动化工具链,涵盖了点云采集、场景语义分割、轨迹生成以及指令生成等环节。