Next-Best-View 规划与 NeRF/3DGS 的碰撞:主动感知的信息前沿

NBV + NeRF/3DGS 前沿方法详解:ActiveGAMER 主动 Gaussian 建图、SO-NeRF 代理目标、AutoNeRF 自主数据采集,覆盖 arXiv/ICRA/ACC 2024-2025 最新工作

Next-Best-View 规划与 NeRF/3DGS 的碰撞:主动感知的信息前沿

UAV 感知规划系列 · 第X+1篇 聚焦:NBV + NeRF/3DGS 前沿方法、ActiveGAMER、SO-NeRF、空地主动探索


1. 核心理念:为什么 NeRF/3DGS 是 NBV 的完美拍档?

传统 NBV 规划有一个致命弱点:它不知道”看不见的地方长什么样”

你是基于当前观测去推测哪里信息量最大——但没观测过的地方,你只能靠启发式(“选个没去过的地方”)。

NeRF/3DGS 改变了这一点:

传统方法:
  "我前方10米有个物体,但背面我完全看不到"
  → 只能假设背面 = 未知,启发式选个点去看看

NeRF/3DGS:
  "我有个神经辐射场,已经隐式编码了前+背面的大致形状"
  → 可以渲染背面的大致外观,评估信息增益的真实上限

这就是为什么 NeRF/3DGS 作为主动感知的”生成模型”(Component 2)是完美的——它可以从任意视角”想象”未观测区域的外观,用于计算真实的信息增益。


2. ActiveGAMER:主动 Gaussian 地图重建(arXiv, 2025)

论文: ActiveGAMER: Active GAussian Mapping through Efficient Rendering 作者: Liyan Chen, Huangying Zhan, Kevin Chen, Xiangyu Xu, Qingan Yan, Changjiang Cai, Yi Xu 来源: arXiv:2501.xxxxx(January 2025)

核心贡献:

系统架构:

┌──────────────────────────────────────────────────────────┐
│                  ActiveGAMER Pipeline                   │
│                                                          │
│  Step 1: 初始建图(稀疏视角覆盖)                         │
│  → 3DGS 初始重建(有明显空洞)                           │
│                                                          │
│  Step 2: NBV 选择(主动感知循环)                        │
│  ┌────────────────────────────────────────────────────┐ │
│  │ 候选视角渲染(并行 ray casting through Gaussians)  │ │
│  │ → 渲染深度图 + 渲染 RGB + 渲染不确定性图             │ │
│  │ → 信息增益评估(基于深度不确定度)                   │ │
│  │ → 选择信息增益最大的下一视角                         │ │
│  └────────────────────────────────────────────────────┘ │
│                                                          │
│  Step 3: 移动 + 精细建图                                  │
│  → UAV 飞行到新视角                                      │
│  → 增量插入新 Gaussians                                  │
│  → 自适应致密化(只加有信息的区域)                       │
│                                                          │
│  Loop: 返回 Step 2,直到覆盖率达到阈值                    │
└──────────────────────────────────────────────────────────┘

关键技术:

2.1 基于不确定度的信息增益

关键洞察: 3DGS 的 Gaussian 参数本身就有均值和协方差(高斯分布),可以直接从参数分布计算观测的信息增益。

信息增益计算:

即:渲染像素的方差之和 = 该视角能提供的信息量。

2.2 高效候选视角评估

传统方法候选视角数量少(几十个),因为每个都要完整渲染。

ActiveGAMER 的加速:

  1. splat-based ray casting(不追踪全部细节)
  2. 批量并行评估数百个候选视角
  3. 只对 top-K 候选做完整渲染
  4. 整体 NBV 循环约 10Hz(可以实时!)

2.3 自适应致密化

不是所有新视角都值得加 Gaussians:

这也是和你已有 blog 方向最接近的! 你的 uav-nerf-gs-planning 可以直接引用这篇。


3. SO-NeRF:代理目标的 NeRF NBV(arXiv, 2023)

论文: SO-NeRF: Active View Planning for NeRF using Surrogate Objectives 作者: Keifer Lee, Shubham Gupta, Sunglyoung Kim, Bhargav Makwana, Chao Chen, Chen Feng 来源: ICRA 2024 / arXiv:2312.xxxxx

核心贡献:

方法:

传统 NBV:
  目标:max 重建质量(需要完整重建才能评估)
  局限:不可微、慢、需要多次渲染

SO-NeRF:
  目标:max 代理目标(可微、快速)
  代理:渲染深度的不连续性 + 视角覆盖度
  核心:深度梯度 = 物体边界 = 需要更多信息的地方

直觉: 渲染深度图里梯度大的地方(深度突变 = 物体边界),就是还没建好模的地方。

和 ActiveGAMER 的区别:


4. AutoNeRF:自主数据收集(ICRA 2024)

论文: AutoNeRF: Training Implicit Scene Representations with Autonomous Agents 作者: Pierre Marza, Laetitia Matignon, Olivier Simonin, Dhruv Batra, Christian Wolf, Devendra Singh Chaplot 来源: ICRA 2024

核心贡献:

关键发现:

在 UAV 上的启示:


5. Active Perception using NeRF(ACC 2024)

论文: Active Perception using Neural Radiance Fields 作者: Siming He, Christopher D. Hsu, Dexter Ong, Yifei Simon Shao, Pratik Chaudhari 来源: ACC 2024 | arXiv:2310.09892

这是你 blog 中可以直接引用的信息论基础论文!

核心贡献:第一性原理推导主动感知应该最大化什么:

最大化过去观测对未来观测的互信息

其中:

三个关键组件(前述框架的详细版):

1. Scene Representation(场景表示)
   → NeRF 捕获几何 + 外观 + 语义
   → 可以从任意视角渲染合成图像

2. Generative Model(生成模型)
   → NeRF 就是生成模型!给定 pose → 渲染 image
   → 给合成观测评估信息增益

3. Information-Driven Planner(信息驱动规划器)
   → 采样可行的机器人轨迹
   → 在每条轨迹的末端视角渲染
   → 选择渲染图像信息增益最大的轨迹

6. 从物体到场景:NBV 的 Scaling

6.1 单物体 NBV → 场景级 NBV

早期 NBV 工作聚焦于单个物体的完整重建

你的 UAV 工作是场景级的:

6.2 Frontier-Based 探索 + 信息增益

Frontier(前沿) = 已探索区域和未探索区域的边界。

经典 Frontier 探索:
  1. 从当前地图提取所有 frontier 点
  2. 选择最近的 frontier → 飞过去
  3. 扩大已知区域
  4. 重复

Frontier + Information Gain:
  1. 从当前地图提取所有 frontier 点
  2. 预测每个 frontier 的信息增益(用 NeRF/3DGS 渲染)
  3. 选择 info/max(distance) 最大的 frontier(权衡信息 + 能量)
  4. 飞过去
  5. 重复

权衡函数设计:

这其实就是 UAV 探索中的 “最大信息/距离比” 准则,保证飞行效率。


7. 在 UAV 场景的具体应用

7.1 城市峡谷探索

场景特点:

NBV 策略建议:

Phase 1: 建立初始地图
  → 沿建筑边缘飞行,捕获立面纹理
  → 初始重建完成约 30-40%

Phase 2: 填充立面细节
  → 选择立面渲染不确定度大的区域
  → 飞到近处做精细扫描

Phase 3: 顶部覆盖
  → 飞行到建筑顶面高度
  → 俯视捕获屋顶结构

Phase 4: 精细化
  → 重复,直到渲染不确定度全面低于阈值

7.2 与你已有工作的对应

你 blog 中写的对应 NBV 系统组件
3D 空间建模(Octree/占用栅格)可通行性约束 + 碰撞检测
NeRF/3DGS 建图主动感知的 Scene Representation
语义 SLAM语义感知 NBV(优先扫描”重要”物体)
仿真数据闭环主动感知的数据增强

8. 关键技术细节

8.1 不确定度估计方法汇总

方法计算方式适用场景实时性
Monte Carlo Dropout多次前向传播,方差作为不确定度NeRF(需要修改网络)
Surrogate Gradient渲染深度梯度作为代理SO-NeRF
Gaussian VarianceGS 自身的协方差传播3DGS(ActiveGAMER)中等
Aleatoric + Epistemic分离噪声不确定度和知识不确定度通用中等

8.2 候选轨迹的生成

NBV 不仅是选一个点,而是选一条可行轨迹


9. 挑战与开放问题

9.1 计算瓶颈

NBV 的主要计算代价:

解决思路:

9.2 动态环境

现有 NBV 方法大多假设静态环境。但城市峡谷中:

开放问题:

9.3 语义感知 NBV

当前大多数 NBV 方法只考虑几何信息增益。但:

解决思路:


10. 推荐研究路线

路线 A(快出成果):

  1. 基于你的 uav-nerf-gs-planning 文章
  2. 接入 ActiveGAMER 的信息增益计算模块
  3. 在你已有的 UAV 仿真平台上验证
  4. 预计工作量:2-3 个月

路线 B(系统性研究):

  1. 实现 FIT-SLAM(FIM-based Active SLAM)
  2. 替换地图表示为你的 3DGS 系统
  3. 加入语义感知权重
  4. 在真实 UAV 上验证
  5. 预计工作量:6-12 个月

路线 C(前沿探索):

  1. 结合 VLM(方向一)做”语义 NBV”
  2. VLM 评估每个 frontier 的语义重要性
  3. 信息增益 = 几何增益 + 语义增益
  4. 预计工作量:12+ 个月,但创新空间大

📚 参考文献

  1. Chen et al. ActiveGAMER: Active Gaussian Mapping through Efficient Rendering. arXiv:2501.xxxxx, January 2025.
  2. Lee et al. SO-NeRF: Active View Planning for NeRF using Surrogate Objectives. arXiv:2312.xxxxx, ICRA 2024.
  3. He et al. Active Perception using Neural Radiance Fields. ACC 2024. arXiv:2310.09892.
  4. Marza et al. AutoNeRF: Training Implicit Scene Representations with Autonomous Agents. ICRA 2024.
  5. Pan et al. How Many Views Are Needed to Reconstruct an Unknown Object Using NeRF? ICRA/IROS 2024.
  6. Saravanan et al. FIT-SLAM: Fisher Information and Traversability estimation-based Active SLAM. arXiv:2401.07504, January 2024.
  7. Zhan et al. Active Human Pose Estimation via an Autonomous UAV Agent. IROS 2024.
  8. Chaplot et al. Learning Visual Exploration for Long-Range Navigation. NeurIPS 2020.