Next-Best-View 规划与 NeRF/3DGS 的碰撞：主动感知的信息前沿

UAV 感知规划系列 · 第X+1篇 聚焦：NBV + NeRF/3DGS 前沿方法、ActiveGAMER、SO-NeRF、空地主动探索

1. 核心理念：为什么 NeRF/3DGS 是 NBV 的完美拍档？

传统 NBV 规划有一个致命弱点：它不知道”看不见的地方长什么样”。

你是基于当前观测去推测哪里信息量最大——但没观测过的地方，你只能靠启发式（“选个没去过的地方”）。

NeRF/3DGS 改变了这一点：

传统方法：
  "我前方10米有个物体，但背面我完全看不到"
  → 只能假设背面 = 未知，启发式选个点去看看

NeRF/3DGS：
  "我有个神经辐射场，已经隐式编码了前+背面的大致形状"
  → 可以渲染背面的大致外观，评估信息增益的真实上限

这就是为什么 NeRF/3DGS 作为主动感知的”生成模型” 是完美的——它可以从任意视角”想象”未观测区域的外观，用于计算真实的信息增益。

2. ActiveGAMER：主动 Gaussian 地图重建（arXiv, 2025）

论文： ActiveGAMER: Active Gaussian Mapping through Efficient Rendering 作者： Liyan Chen, Huangying Zhan, Kevin Chen, Xiangyu Xu, Qingan Yan, Changjiang Cai, Yi Xu 来源： arXiv:2501.06897, January 2025 | CVPR 2025

核心贡献：

首个主动感知 + 3D Gaussian Splatting 的完整系统
在仿真和真实环境中验证（Franka 机械臂 + UAV 平台）
实现了 实时 NBV 规划（GPU 并行渲染加速）

系统架构：

┌──────────────────────────────────────────────────────────┐
│                  ActiveGAMER Pipeline                   │
│                                                          │
│  Step 1: 初始建图（稀疏视角覆盖）                         │
│  → 3DGS 初始重建（有明显空洞）                           │
│                                                          │
│  Step 2: NBV 选择（主动感知循环）                        │
│  ┌────────────────────────────────────────────────────┐ │
│  │ 候选视角渲染（并行 ray casting through Gaussians）  │ │
│  │ → 渲染深度图 + 渲染 RGB + 渲染不确定性图             │ │
│  │ → 信息增益评估（基于深度不确定度）                   │ │
│  │ → 选择信息增益最大的下一视角                         │ │
│  └────────────────────────────────────────────────────┘ │
│                                                          │
│  Step 3: 移动 + 精细建图                                  │
│  → UAV 飞行到新视角                                      │
│  → 增量插入新 Gaussians                                  │
│  → 自适应致密化（只加有信息的区域）                       │
│                                                          │
│  Loop: 返回 Step 2，直到覆盖率达到阈值                    │
└──────────────────────────────────────────────────────────┘

关键技术：

2.1 基于不确定度的信息增益

关键洞察： 3DGS 的 Gaussian 参数本身就有均值和协方差（高斯分布），可以直接从参数分布计算观测的信息增益。

信息增益计算：

即：渲染像素的方差之和 = 该视角能提供的信息量。

渲染方差大 → 这个区域地图还很糙，需要更多观测
渲染方差小 → 这个区域地图已经很好，观测收益低

2.2 高效候选视角评估

传统方法候选视角数量少（几十个），因为每个都要完整渲染。

ActiveGAMER 的加速：

用 splat-based ray casting（不追踪全部细节）
批量并行评估数百个候选视角
只对 top-K 候选做完整渲染
整体 NBV 循环约 10Hz（可以实时！）

2.3 自适应致密化

不是所有新视角都值得加 Gaussians：

高信息区域：深度不连续、视角变化大 → 致密化
低信息区域：重合区域、纹理稀少 → 跳过

这也是和你已有 blog 方向最接近的！ 你的 uav-nerf-gs-planning 可以直接引用这篇。

3. SO-NeRF：代理目标的 NeRF NBV（arXiv, 2023）

论文： SO-NeRF: Active View Planning for NeRF using Surrogate Objectives 作者： Keifer Lee, Shubham Gupta, Sunglyoung Kim, Bhargav Makwana, Chao Chen, Chen Feng 来源： arXiv:2312.XXXXX, December 2023

核心贡献：

提出 Surrogate Objectives（代理目标） 解决 NBV 优化中的非凸性
避免了直接优化重建质量（不可微、计算重）的问题

注意： SO-NeRF 发表于 arXiv，尚未找到明确的顶会发表记录。

方法：

传统 NBV：
  目标：max 重建质量（需要完整重建才能评估）
  局限：不可微、慢、需要多次渲染

SO-NeRF：
  目标：max 代理目标（可微、快速）
  代理：渲染深度的不连续性 + 视角覆盖度
  核心：深度梯度 = 物体边界 = 需要更多信息的地方

直觉： 渲染深度图里梯度大的地方（深度突变 = 物体边界），就是还没建好模的地方。

和 ActiveGAMER 的区别：

SO-NeRF 用深度梯度作为代理（无需修改 NeRF 本身）
ActiveGAMER 用 Gaussian 方差（需要 GS 的概率框架）
两者可以互补：SO-NeRF 做候选筛选，ActiveGAMER 做精调

4. AutoNeRF：自主数据收集（arXiv, 2024）

论文： AutoNeRF: Training Implicit Scene Representations with Autonomous Agents 作者： Pierre Marza, Laetitia Matignon, Olivier Simonin, Dhruv Batra, Christian Wolf, Devendra Singh Chaplot 来源： arXiv, 2024

核心贡献：

让 agent（机器人）自主决定去哪里采集 NeRF 训练数据
在 Habitat-sim 仿真环境中验证
对比了多种主动策略：random / frontier-based / model-based

关键发现：

简单 frontier-based 策略已经比 random 好很多
模型预测型（用 NeRF 预测新视角质量）可以进一步提升
主动采集 vs 被动采集：最终重建质量提升 40%+

在 UAV 上的启示：

UAV 的空中视角让 frontier（已探索-未探索边界）比地面 robot 更大
空中 NBV 需要考虑垂直方向（不只是水平移动）
建筑顶面、悬挑结构下方是 UAV 特有的” frontier”

5. Active Perception using NeRF（arXiv, 2023）

论文： Active Perception using Neural Radiance Fields 作者： Siming He, Christopher D. Hsu, Dexter Ong, Yifei Simon Shao, Pratik Chaudhari 来源： arXiv:2310.09892, October 2023

这是你 blog 中可以直接引用的信息论基础论文！

核心贡献： 从第一性原理推导主动感知应该最大化什么：

最大化过去观测对未来观测的互信息

其中：

= 已有的传感器观测
= 执行动作后会获得的新观测
= 环境的完整状态

三个关键组件：

1. Scene Representation（场景表示）
   → NeRF 捕获几何 + 外观 + 语义
   → 可以从任意视角渲染合成图像

2. Generative Model（生成模型）
   → NeRF 就是生成模型！给定 pose → 渲染 image
   → 给合成观测评估信息增益

3. Information-Driven Planner（信息驱动规划器）
   → 采样可行的机器人轨迹
   → 在每条轨迹的末端视角渲染
   → 选择渲染图像信息增益最大的轨迹

6. 从物体到场景：NBV 的 Scaling

6.1 单物体 NBV → 场景级 NBV

早期 NBV 工作聚焦于单个物体的完整重建：

物体放在转台上，转到特定角度拍照
目标：覆盖所有视角，获得完整 3D 模型

你的 UAV 工作是场景级的：

整个城市峡谷 / 室内空间
不能一个个物体来，需要整体规划
Frontier-based 探索成为主策略

6.2 Frontier-Based 探索 + 信息增益

Frontier（前沿） = 已探索区域和未探索区域的边界。

经典 Frontier 探索：
  1. 从当前地图提取所有 frontier 点
  2. 选择最近的 frontier → 飞过去
  3. 扩大已知区域
  4. 重复

Frontier + Information Gain：
  1. 从当前地图提取所有 frontier 点
  2. 预测每个 frontier 的信息增益（用 NeRF/3DGS 渲染）
  3. 选择 info/max(distance) 最大的 frontier（权衡信息 + 能量）
  4. 飞过去
  5. 重复

权衡函数设计：

这其实就是 UAV 探索中的 “最大信息/距离比” 准则，保证飞行效率。

7. 在 UAV 场景的具体应用

7.1 城市峡谷探索

场景特点：

两边是高层建筑，顶面天空开阔
底部是街道，GNSS 信号差
侧面是建筑立面，信息密度高

NBV 策略建议：

Phase 1: 建立初始地图
  → 沿建筑边缘飞行，捕获立面纹理
  → 初始重建完成约 30-40%

Phase 2: 填充立面细节
  → 选择立面渲染不确定度大的区域
  → 飞到近处做精细扫描

Phase 3: 顶部覆盖
  → 飞行到建筑顶面高度
  → 俯视捕获屋顶结构

Phase 4: 精细化
  → 重复，直到渲染不确定度全面低于阈值

7.2 与你已有工作的对应

你 blog 中写的	对应 NBV 系统组件
3D 空间建模（Octree/占用栅格）	可通行性约束 + 碰撞检测
NeRF/3DGS 建图	主动感知的 Scene Representation
语义 SLAM	语义感知 NBV（优先扫描”重要”物体）
仿真数据闭环	主动感知的数据增强

8. 关键技术细节

8.1 不确定度估计方法汇总

方法	计算方式	适用场景	实时性
Monte Carlo Dropout	多次前向传播，方差作为不确定度	NeRF（需要修改网络）	慢
Surrogate Gradient	渲染深度梯度作为代理	SO-NeRF	快
Gaussian Variance	GS 自身的协方差传播	3DGS（ActiveGAMER）	中等
Aleatoric + Epistemic	分离噪声不确定度和知识不确定度	通用	中等

8.2 候选轨迹的生成

NBV 不仅是选一个点，而是选一条可行轨迹：

UAV 有最大速度/加速度约束
需要考虑动力学可行性（RRT* / BIT* / MPC）
通常先生成候选终点，再验证轨迹可行性

9. 挑战与开放问题

9.1 计算瓶颈

NBV 的主要计算代价：

候选评估（数百个候选 × 渲染 = 瓶颈）
信息增益计算（需要多次渲染）
NBV 优化循环（通常需要 10-50 次迭代）

解决思路：

早期用低分辨率渲染快速筛选
只对 top-10 候选做高分辨率精确评估
GPU 并行化（候选并行渲染）

9.2 动态环境

现有 NBV 方法大多假设静态环境。但城市峡谷中：

汽车在移动
行人来来去去
建筑可能在施工

开放问题：

动态物体如何纳入信息增益计算？
已建好模的区域被动态物体遮挡怎么办？
在线增量更新 vs 定期完全重建的权衡？

9.3 语义感知 NBV

当前大多数 NBV 方法只考虑几何信息增益。但：

“这栋楼是博物馆，比停车场更重要”
“这个立面有广告牌，比空白墙信息密度高”

解决思路：

在 NeRF/3DGS 中加入语义分支（Semantic NeRF）
信息增益 = 几何增益 × 语义权重
类似你在 uav-semantic-mapping.md 中写的内容！

10. 推荐研究路线

路线 A（快出成果）：

基于你的 uav-nerf-gs-planning 文章
接入 ActiveGAMER 的信息增益计算模块
在你已有的 UAV 仿真平台上验证
预计工作量：2-3 个月

路线 B（系统性研究）：

实现 FIT-SLAM（FIM-based Active SLAM）
替换地图表示为你的 3DGS 系统
加入语义感知权重
在真实 UAV 上验证
预计工作量：6-12 个月

路线 C（前沿探索）：

结合 VLM（方向一）做”语义 NBV”
VLM 评估每个 frontier 的语义重要性
信息增益 = 几何增益 + 语义增益
预计工作量：12+ 个月，但创新空间大

📚 参考文献

Chen et al. ActiveGAMER: Active Gaussian Mapping through Efficient Rendering. arXiv:2501.06897, January 2025.
Lee et al. SO-NeRF: Active View Planning for NeRF using Surrogate Objectives. arXiv:2312.XXXXX, December 2023.
He et al. Active Perception using Neural Radiance Fields. arXiv:2310.09892, October 2023.
Marza et al. AutoNeRF: Training Implicit Scene Representations with Autonomous Agents. arXiv, 2024.
Saravanan et al. FIT-SLAM: Fisher Information and Traversability estimation-based Active SLAM. arXiv:2401.09322, January 2024.
Zhan et al. Active Human Pose Estimation via an Autonomous UAV Agent. arXiv, 2024.
Chaplot et al. Learning Visual Exploration for Long-Range Navigation. NeurIPS, 2020.