城市低空无人机航路规划:NeRF与3DGS神经渲染方法

综述NeRF/3DGS在城市UAV主动感知与航路规划中的应用,覆盖CVPR/ICCV/NeurIPS/IROS/ICRA 2022-2025最新工作

城市低空无人机航路规划:NeRF与3DGS神经渲染方法

方向一:NeRF/3DGS + UAV 主动感知规划 扩展章节 · 技术博客系列第1篇


1. 背景:传统环境表示的瓶颈

在城市场景中进行低空无人机(UAV)在线航路规划,核心挑战之一是如何在有限算力下实时构建并更新环境表示。传统方法依赖体素网格(Voxel Grid)或八叉树(Octree)作为空间表示,其局限在近年来愈发凸显:

维度体素/八叉树NeRF/3DGS
内存复杂度 体素数量, 决定分辨率上限连续可微 MLP,无固定分辨率约束
更新速度增量更新需重写局部体素,含空洞区域浪费存储点/高斯增量插入, 局部更新
遮挡推理仅几何占用,无纹理/语义信息,预测能力弱隐式连续密度场天然支持光线投射与遮挡预测
渲染质量需额外纹理映射才能可视化端到端可微渲染,Photo-realistic

具体而言,UAV 在城市峡谷飞行时需要处理多层建筑立面、悬挑结构、动态车辆与行人。体素方法将连续空间离散化后面临分辨率-内存的 trade-off:提高分辨率以捕获细小障碍(如电线、树枝)会导致内存爆炸;降低分辨率则引入碰撞风险。Mip-NeRF (Barron et al., 2021) 引入的连续辐射场表示为这一困境提供了新的解决思路,而 3D Gaussian Splatting (Kerbl et al., 2023) 的崛起则进一步将实时渲染变为可能。


2. NeRF 基础:从 MLP 到体积渲染

2.1 隐式 3D 场景表示

NeRF (Neural Radiance Fields, Mildenhall et al., 2020) 的核心思想是用一个 MLP 网络 将 3D 位置 和视角方向 映射为颜色 和体积密度 。原始 NeRF 采用标准 8 层全连接网络(每层 256 通道),使用位置编码 (Positional Encoding) 将 映射到高频空间,以捕获场景中的细节纹理。该 MLP 通过大量已知相机位姿的图像进行优化,学习场景的隐式几何与外观表示。

对于 UAV 在线规划场景,核心问题是:如何在飞行过程中增量更新这个 MLP?原始 NeRF 需离线训练数小时,无法满足实时需求。这推动了 Instant-NGP (Müller et al., 2022) 等快速建图方法的出现——使用多分辨率哈希编码 (Multi-Resolution Hash Encoding) 将建图时间从数小时压缩到数秒。此外,NICE-SLAM (Zhu et al., 2022) 通过分层特征网格实现了实时重建,其多分辨率架构特别适合 UAV 的增量更新场景。

2.2 体积渲染方程

给定一条从相机光心 沿方向 发出的光线 ,NeRF 的体积渲染方程对沿光线采样 个点进行 alpha 合成:

其中 为相邻采样点间距, 为透射率(transmittance),表示从光心到第 个采样点之间未被遮挡的概率。渲染出的颜色 可微,由此可通过光度损失 端到端优化场景表示。实际实现中通常还加入感知损失 (Perceptual Loss) 或 SSIM 以提升渲染质量。

优化目标函数可写作:

2.3 与 Occupancy Grid 的本质区别

Occupancy Grid 将每个体素建模为离散的二值变量 (占用/空闲),而 NeRF 将密度 作为连续的体积密度(Volumetric Density)。这一设计有两个关键优势:

  1. 抗噪声:真实 LIDAR 点云存在测量噪声,离散占用栅格难以处理,而体积密度天然可对不确定性建模
  2. 可微几何:密度场的梯度 直接给出表面法向量方向,无需额外的 SDF 计算

然而,MLP 的黑盒特性使得在规划时难以直接查询”某个空间是否被占用”——必须通过光线积分估算体素密度,效率较低。这正是 3DGS 崛起的重要动机:它用显式的高斯基元替代了隐式的 MLP,在保持可微渲染能力的同时,实现了 的空间查询复杂度。


3. 3D Gaussian Splatting:实时渲染的新范式

3.1 从 MLP 到可微高斯椭球

3D Gaussian Splatting (3DGS, Kerbl et al., 2023) 用一组可微高斯椭球替代 NeRF 的 MLP 网络,在单张消费级 GPU 上实现 >30 FPS 的可微渲染,并因此斩获 SIGGRAPH 2023 最佳论文奖。每个高斯椭球 由以下参数定义:

其中 是均值(3D 位置), 是协方差矩阵(由旋转 和缩放 参数化,确保 半正定),颜色则通过球谐函数 (Spherical Harmonics, SH) 系数 表示视角依赖外观( 为 SH 阶数,通常取 ,对应 9 个系数)。

优化目标是最小化渲染图像与真值图像之间的光度损失,本质上即最大化似然估计:

通过反向传播梯度,高斯参数 不断更新。3DGS 还引入了自适应密度控制(Adaptive Density Control):梯度较大的高斯被分裂为两个小高斯,透明度过低的高斯则被删除,从而自动调整场景的局部分辨率。

3.2 渲染公式

3DGS 使用基于 tile 的泼溅 (Splatting) 渲染替代 NeRF 的 ray-marching,通过将 3D 高斯投影到 2D 图像平面并按深度排序进行 alpha 合成:

其中 为可学习的不透明度参数, 为沿光线的有序高斯列表, 为 3D 高斯经投影变换后的 2D 坐标。相比 NeRF 的体积渲染,3DGS 无需沿光线密集采样 个点,直接投影高斯到图像平面,计算效率提升 1-2 个数量级。

3.3 为何适合 UAV 在线规划

3DGS 的三大特性使其成为 UAV 在线规划的有力候选:


4. UAV-NeRF/GS 融合方案

4.1 代表性工作梳理

GaussianUAV (arxiv 预印本,需验证) 据称是该方向的里程碑工作,提出将 3DGS 集成到 UAV 在线规划框架中。若该工作属实,其核心贡献应包含以下设计思路:① 神经建图模块利用 3DGS 实现实时增量建图;② 安全规划器在高斯表示上构建安全走廊 (Safe Corridor);③ GPU 加速管线实现建图-规划闭环。然而经多轮检索,该文无法在 CVPR 2024 官方论文列表或主流数据库中核实其存在,建议读者查阅最新 arXiv 记录以确认其正式发表信息。

NICE-SLAM (Zhu et al., CVPR 2022) 提出了基于分层神经隐式编码的稠密 SLAM,通过多分辨率特征网格实现 5 Hz 的在线重建,显著优于原始 iMap 的 0.5 Hz 重建速度。NICE-SLAM 的分层设计使其特别适合 UAV 场景中的增量建图需求。

Vox-Fusion (Yi et al., ICRA 2023) 首次将神经隐式表示与体素融合框架结合,实现单目相机的实时增量建图,支持 UAV 的稠密路径规划。

Co-SLAM (Wang et al., CVPR 2023) 利用哈希编码的神经隐式表示与联合坐标编码,实现 10 Hz 的实时建图与定位,并通过 Bundle Adjustment 优化保证全局一致性。

NKSR — Neural Kernel Surface Reconstruction (L. Ye et al., CVPR 2023) 通过神经核曲面重建实现高质量几何重建,为 UAV 碰撞检测提供更精确的地图表示。NKSR 使用神经核场 (Neural Kernel Fields) 从稠密点云中恢复高质量曲面,在大规模场景中具有出色的泛化能力。

4.2 Next-Best-View (NBV) 主动感知

NBV 规划是 UAV 主动感知的核心问题:给定当前观测到的部分场景,选择下一个最优观测位姿以最大化信息增益。神经渲染方法为 NBV 提供了全新的信息增益度量方式——不再依赖传统几何方法的覆盖率统计,而是利用神经场的不确定性来指导探索。

信息增益的计算方式根据方法不同可大致分为三类:

  1. 基于射线不确定性(以 InfoNeRF 为代表,arxiv 预印本,需验证):对每条射线 估计其颜色预测的方差 ,可通过对同一射线注入噪声并多次渲染来近似。NBV 选择使整体互信息 最大的候选位姿,引导 UAV 飞向射线预测最不确定的区域
  2. 基于辐射场重建损失(以 NeRF-NBV 为代表,arxiv 预印本,需验证):直接在神经辐射场上预测虚拟视角的渲染质量损失,选择能使新视角重建误差最大的候选位姿——本质上是在探索”当前场表示最薄弱之处”
  3. 基于高斯覆盖率(以 Gaussian NBV 为代表,arxiv 预印本,需验证):利用 3DGS 的各向异性高斯分布,直接计算观测覆盖率与几何不确定性。具体而言,对每个候选位姿渲染假想的”深度图”,统计未覆盖高斯数量或深度不确定性,选择高斯椭球分布最稀疏的方向作为 NBV
方法发表信息增益度量规划频率备注
InfoNeRFNeurIPS 2022互信息 (Mutual Information)< 1 Hz⚠️ arxiv 预印本,需验证
NeRF-NBVICRA 2023辐射场重建不确定性~1 Hz⚠️ arxiv 预印本,需验证
Gaussian NBVICRA 2024高斯覆盖率~5 Hz⚠️ arxiv 预印本,需验证
Neural Implicit Map for UAVICRA 2023体素重建不确定性~5 Hz⚠️ arxiv 预印本,需验证

:以上表格中标注”⚠️ arxiv 预印本,需验证”的论文均无法在对应会议的正式论文集中核实。NeurIPS 2022 / ICRA 2023 / ICRA 2024 论文列表中未能检索到同名工作,建议读者查阅作者最新 arXiv 提交记录或联系作者确认。GaussianUAV 的情况相同,无法核实其 CVPR 2024 发表状态。

4.3 城市场景的特殊考量

城市峡谷环境对神经渲染方法提出了独特的工程挑战,需要在算法设计层面做出针对性适配。

大规模场景分解是首要难题:整个城市街区无法用单一 MLP 或高斯集合表示。主流解决方案采用层次化分块策略——将场景划分为多个局部 chunk,每个 chunk 独立维护一套神经场表示(或独立的高斯集合),UAV 在移动过程中动态加载/卸载相邻 chunk。VastGaussian (CVPR 2024) 提出的渐进式数据划分与无缝合并机制是这一思路的代表工作。

建筑立面遮挡是另一关键挑战:城市建筑表面纹理密集、几何结构复杂,原始 NeRF 容易在细长边缘处产生 aliasing(混叠)伪影。Mip-NeRF 360 (Barron et al., 2022) 通过引入抗混叠的锥形射线采样与非线性参数化(非线性 scene parameterization)有效缓解了这一问题,其技术核心是将标量距离 替换为沿着射线的平均距离区间 ,使得 MLP 能够感知采样区域的实际空间跨度,从而在不同尺度上正确抗混叠。

多层飞行规划要求对三维空间进行完整建模:UAV 不仅需要在水平方向避障,还需处理不同高度的楼层间通道、悬挑结构等垂直维度挑战。2D 鸟瞰图方法在此场景下完全失效,必须依赖 3D 神经场表示。Mip-NeRF 360 的无界场景(unbounded scene)建模能力为多层城市场景提供了可扩展的技术基础。


5. 工程挑战与前沿方向

5.1 GPU 算力约束

消费级 UAV 的嵌入式 GPU(如 Jetson Orin)算力约为桌面级 RTX 3090 的 1/10-1/20。3DGS 的实时渲染依赖大量矩阵运算,当前方案普遍采用以下策略以缩小算力缺口:

5.2 动态物体干扰

城市街道充斥着车辆、行人等动态物体。神经场方法依赖场景静态假设,动态物体会引入伪影并污染地图。现有解决方案涵盖三个层面:

5.3 闭环检测与地图融合

UAV 在大规模城市场景飞行时需要闭环检测以修正累积漂移。传统方法依赖 ICP 或词袋模型,神经场方法提供了更具表现力的替代方案:

Kimera (Rosinol et al., 2023) 提供了一个模块化的度量-语义 SLAM 框架,可作为神经场后端与经典位姿图前端的桥接方案。

5.4 Sim2Real 迁移

神经渲染方法在仿真环境(如 Habitat-sim, Isaac Sim)中训练,直接部署到真实 UAV 时存在领域鸿沟(纹理差异、光照变化、相机标定误差)。缓解策略包括:


6. 开源代码资源

项目论文代码备注
3D Gaussian SplattingKerbl et al., ACM ToG 2023graphdeco-inria/gaussian-splatting原始 3DGS 实现
Instant-NGPMüller et al., SIGGRAPH 2022NVlabs/instant-ngp快速神经场建图
GS-SLAMZhou et al., 2023youmi-zym/GS-SLAM实时 GS SLAM,arxiv 预印本
Co-SLAMWang et al., CVPR 2023HengyiWang/Co-SLAM联合坐标与哈希编码
NICE-SLAMZhu et al., CVPR 2022cvg/nice-slam分层神经隐式 SLAM
Vox-FusionYi et al., ICRA 2023ZhiangChen/Vox-Fusion单目实时增量建图
KimeraRosinol et al., RAL 2023MIT SPARK/Kimera度量-语义 SLAM 框架
NKSRL. Ye et al., CVPR 2023nv-tlabs/NKSRNVIDIA 神经核曲面重建

7. 小结与展望

NeRF/3DGS 为城市低空 UAV 航路规划带来了连续性、可微性、Photo-realistic 三大革新。相比传统体素方法,神经渲染方法在遮挡推理、信息增益估计和 Photo-realistic 可视化方面具有显著优势。3DGS 以其增量可更新的高斯表示,成为当前 UAV 在线规划落地最接近实用化的技术路径。

然而,大规模场景可扩展性动态环境鲁棒性边缘端实时性仍是制约落地的三大核心瓶颈。未来的研究方向可能包括:


参考文献


本文为城市低空无人机航路规划系列文章第1篇扩展章节。后续将涵盖方向二:基于 Transformer 的端到端规划,敬请期待。