具身智能论文阅读：OpenFly:A Comprehensive Platformfor Aerial Vision-Language Navigation

Source

Abstract

视觉语言导航（Vision-Language Navigation, VLN旨在通过利用语言指令与视觉线索来引导智能体行动，在具身智能（Embodied AI）领域中发挥着关键作用。相比之下，室内VLN已经得到了广泛研究，而室外的**空中视觉语言导航（Aerial VLN）**仍然鲜有探索。其潜在原因在于：室外空中视角涵盖范围广阔，数据采集过程更加困难，从而导致缺乏相关基准数据集。

为了解决这一问题，我们提出了OpenFly——一个集成多种渲染引擎、灵活工具链及大规模基准数据集的空中VLN平台。

首先，我们整合了多样化的渲染引擎与先进的环境模拟技术，包括Unreal Engine、GTA V、Google Earth以及三维高斯点云渲染（3D Gaussian Splatting, 3D GS）。特别地，3D GS支持从真实到仿真的渲染（real-to-sim rendering），进一步增强了环境的真实感。

其次，我们开发了一套高度自动化的空中VLN数据采集工具链，实现了点云采集、场景语义分割、飞行轨迹生成与语言指令生成等流程的自动化处理。

第三，基于该工具链，我们构建了一个包含10万条飞行轨迹的大规模空中VLN数据集，覆盖18个场景中不同的飞行高度与路径长度。

此外，我们提出了OpenFly-Agent，一种**关键帧感知（keyframe-aware）**的VLN模型，能够在飞行过程中聚焦关键观测信息。

在基准测试方面，我们进行了大量实验与分析，评估了多种最新VLN方法，验证了OpenFly平台与OpenFly-Agent模型的优越性能。平台的工具链、数据集及代码将全面开源。

关键词： 空中视觉语言导航（Aerial Vision-Language Navigation, VLN）；基准数据集；工具链

Introduction

具身智能（Embodied AI）近年来引起了越来越多的研究兴趣，其中视觉语言导航（Vision-Language Navigation, VLN）是核心任务之一，其目标是根据语言指令与视觉观测来引导智能体到达目标位置。近些年来，研究者们陆续构建了多个VLN数据集，例如TouchDown [1]、REVERIE [2]、R2R [3]、RxR [4]、CVDN [5]、VLN-CE [6]以及LANI [7]，这些数据集极大地促进了一系列VLN方法的发展 [8–16]。

然而，所有现有研究几乎都专注于室内环境或地面智能体，而忽视了无人机（Unmanned Aerial Vehicles, UAVs）在航拍、救援任务、货物运输等场景中的重要作用。

近期，AerialVLN [17] 与 OpenUAV [18] 通过利用无人机仿真平台，在空中VLN数据集构建方面取得了显著进展，从而大大推动了该领域的发展。然而，目前仍然存在若干亟待解决的挑战：

数据多样性不足。
现有方法主要依赖AirSim与 Unreal Engine (UE) 来控制无人机，使其只能使用这些平台所兼容的数字资产，从而限制了可用数据的多样性，也制约了更高仿真度（photorealistic）数据源的潜在利用。
数据采集效率低。
当前轨迹生成过程依赖人工操作无人机在仿真环境中飞行，并需手动标注语言指令。整个流程劳动密集、耗时长且难以扩展，限制了大规模数据集的构建效率。
数据规模不足。
现有空中VLN数据集的规模仍然较小，通常仅包含约1万条飞行轨迹，与具身操作类（embodied manipulation）数据集相比差距显著。
例如，Open X-Embodiment [19]已收集超过100万条操作任务数据（1M episodes），这大大加速了视觉-语言-动作（Vision-Language-Action, VLA）模型的发展。

为了解决上述问题，我们提出了OpenFly——一个综合性的平台，集成了多样化的渲染引擎、灵活的工具链以及大规模的空中VLN基准数据集。

为了提升数据多样性，该平台基于多种广泛使用的渲染引擎与先进技术构建，包括Unreal Engine (UE)、GTA V、Google Earth以及三维高斯点云渲染（3D Gaussian Splatting, 3D GS），从而能够利用丰富多样的资产资源（如图1所示）。特别地，我们使用无人机（UAV）采集了大量真实世界图像，并将3D GS技术集成至平台中，以实现逼真的三维场景重建，从而支持从真实到仿真（real-to-sim）的环境模拟。

为提高数据采集效率，我们开发了一套多功能的自动化空中VLN数据生成工具链（如图2所示）。具体流程如下：
首先，进行点云采集以获取场景的三维占据信息；
接着，执行场景语义分割，以识别并选择关键地标（landmarks）作为飞行轨迹上的路径点；
在此基础上，利用预定义的飞行动作作为基本单元，结合地标与点云数据，自动搜索无碰撞飞行轨迹，完成轨迹生成；
最后，将生成的飞行轨迹及对应的无人机自我中心视角图像（UAV-egocentric images）输入到视觉语言模型（Vision-Language Model, VLM），例如GPT-4o，自动生成语言指令。

整个流程实现了高度自动化，显著减少了对人工无人机操作员与标注人员的依赖。

为构建大规模数据集，我们精心采集了18个高质量场景，并在不同高度与路径长度下生成了多样化的飞行轨迹。得益于该工具链的高效性，我们能够快速构建规模达10万条轨迹（100k samples）的空中VLN数据集，其规模远超现有同类数据集。

此外，我们提出了OpenFly-Agent，一种关键帧感知（keyframe-aware）的空中VLN模型。该模型引入了自适应帧级采样机制（adaptive frame-level sampling mechanism），以聚焦飞行过程中至关重要的视觉观测信息。值得注意的是，这种关键帧采样机制对于空中VLN的视觉编码至关重要，因为无人机飞行速度快、观测变化迅速。

我们在OpenFly数据集上进行了大量实验，评估了多种现有方法，建立了一个全面的空中VLN基准。

总体而言，本文的主要贡献可概括如下：

多引擎与多功能工具链集成：我们基于多个渲染引擎构建了OpenFly平台，并开发了灵活的工具链，实现了高多样性与高效率的数据自动生成。
大规模空中VLN基准数据集：我们构建了一个包含18个高质量场景、共10万条飞行轨迹的新型空中VLN数据集。据我们所知，这是迄今为止规模最大的空中VLN基准数据集，用户也可利用OpenFly平台采集定制化数据。
关键帧感知VLN模型：我们提出的OpenFly-Agent模型通过关键帧采样机制实现了更高效的视觉编码。大量实验结果表明，其性能显著优于现有方法。

一个是数据收集自动化，一个是关键帧的采样VLN

Related Works

Vision-Language Navigation Datasets

近年来，研究者们提出了众多数据集以加速视觉语言导航（Vision-Language Navigation, VLN）任务的发展。

R2R [3] 数据集主要聚焦于在未见过的建筑环境中评估智能体的导航能力，并提供离散化的导航选项。
RxR [4] 则在此基础上提供了一个标注更密集的VLN数据集。
TouchDown [1] 和 REVERIE [2] 均基于真实场景环境构建数据集，要求地面智能体根据语言指令导航并找到目标物体。
CVDN [5] 提出了一个协作式VLN数据集，其中智能体在推理过程中可以访问人类协作历史信息。

上述所有数据集均为基于图结构（graph-based）的设计，即可导航点（navigable points）在环境中是预定义的。
LANI [7] 和 VLN-CE [6] 则进一步将VLN任务扩展至连续的室外/室内环境，允许智能体自由移动至任何无遮挡的点位，从而提升了导航的连续性与真实性。

近年来，部分研究开始尝试构建空中（aerial）VLN数据集。
例如，ANDH [20] 构建了一个基于对话形式的空中VLN数据集，采用鸟瞰视角图像（bird-view images）作为视觉输入；
CityNav [21] 则基于SensatUrban [22] 提供的点云数据与CityRefer [23] 的语言标注信息构建数据集，要求智能体结合真实二维地图（2D map）定位指令中提到的特定地标。
此外，AerialVLN [17] 和 OpenUAV [18] 将AirSim与Unreal Engine (UE) 相结合，用于构建可供无人机（UAV）飞行的VLN场景，使得操作员能够手动控制无人机生成多样化的飞行轨迹。

Vision-Language Navigation Methods

视觉语言导航（Vision-Language Navigation, VLN）方法要求智能体能够基于视觉观测（visual observations）去理解并执行语言指令（language instructions）。

在早期的基于图结构（graph-based）研究中 [24, 25, 26, 27]，智能体在预定义的图节点之间进行移动。

近年来，随着大语言模型（Large Language Models, LLMs）推理能力的提升，出现了许多LLM驱动的VLN方法 [28–31]。这些方法利用LLM的推理能力来预测下一个导航节点。尽管这类方法取得了显著进展，但由于依赖预定义图结构，它们仍难以应用于真实的未知环境。

与之相对，部分研究 [32, 33, 34, 16] 探索了连续环境（continuous environments）下的VLN任务，使智能体能够在更接近现实的场景中进行导航，从而提升应用的实用性与泛化性。

近期，一些工作开始尝试在无人机（UAV）平台上解决空中VLN任务。其中，AerialVLN [17] 提出了前瞻式引导（lookahead guidance）方法，用于在训练过程中生成更合理的真实轨迹（ground-truth trajectories）；
STMR [35] 设计了一种矩阵表示（matrix representation），以增强大语言模型在空间推理（spatial reasoning）方面的能力；
而OpenUAV [18] 则引入了与真实轨迹（Ground Truth, GT）对齐的人类辅助信息（human assistance），以进一步提升导航精度与稳定性。

Automatic Data Generation

在本节中，我们首先介绍若干渲染引擎和数据资源，然后展示所开发的工具链。整个自动化数据生成框架如图2所示。

渲染引擎与数据资源

Unreal Engine（UE）
UE是一种能够提供高逼真度虚拟环境的渲染引擎。我们精心选择了8个城市场景，总覆盖面积超过100平方公里。这些场景包含多种资产，如建筑物、街道、交通信号灯、车辆和行人，涵盖了多样化的建筑风格。

GTA V
GTA V是一款开放世界游戏，由于其环境高度逼真，常被研究人员用作视觉与导航任务的研究平台。游戏中的城市景观以洛杉矶为原型精心建模，包含摩天大楼、加油站、公园、广场等多种建筑与地标，为视觉导航提供了丰富的环境元素。

Google Earth
Google Earth是一款虚拟地球软件，通过整合卫星影像和航空摄影数据构建出三维地球模型。在本研究中，我们从该引擎中选择了四个城市场景，总覆盖面积达53.60平方公里，分别为伯克利（Berkeley）、大阪（Osaka）、华盛顿特区（Washington, D.C.）和圣路易斯（St. Louis）。

三维高斯点云渲染（3D Gaussian Splatting, 3D GS）
3D GS在逼真场景重建中表现出色，能够捕捉复杂纹理并生成高度细致、逼真的虚拟环境，从而显著提升数字场景的真实感。基于这一特性，我们采用了分层式的3D GS方法 [36] 来重建并渲染多个真实场景。
在实际操作中，我们使用无人机（UAV）在三所大学的五个校区采集数据，这些校园场景包含多种类型与风格的地标，如图书馆、钟楼、水道、湖泊、操场、施工区域和草坪等。

关于渲染引擎、数据资源及示例的更多细节，可参见附录A。

仿真在上述平台仿真，实物数据则在三个大学采集相似数据

Toolchain for Automatic Data Collection

为实现自动化数据生成，我们首先将上述渲染引擎进行了集成，并设计了三个统一接口，用于控制智能体的移动与传感器数据的采集（接口设计详见附录C）。基于这些接口，我们进一步开发了一套自动化工具链，涵盖了点云采集、场景语义分割、轨迹生成以及指令生成等环节。