Next-Best-View Planning と NeRF/3DGS の出会い: アクティブセンシングの情報フロンティア

UAV 知覚計画シリーズ·パート X+1 焦点: NBV + NeRF/3DGS 最先端手法、ActiveGAMER、SO-NeRF、空地アクティブ探査

1. コアコンセプト: NeRF/3DGS が NBV にとって最適なパートナーであるのはなぜですか?

従来の NBV 計画には、「目に見えないものがどのように見えるか」が分からないという致命的な弱点があります。

現在の観測に基づいて最も多くの情報が存在する場所を推測していますが、観測されていない場所については、ヒューリスティック (「行ったことのない場所を選択する」) に頼るしかありません。

NeRF/3DGS はこれを変更します:

传统方法：
  "我前方10米有个物体，但背面我完全看不到"
  → 只能假设背面 = 未知，启发式选个点去看看

NeRF/3DGS：
  "我有个神经辐射场，已经隐式编码了前+背面的大致形状"
  → 可以渲染背面的大致外观，评估信息增益的真实上限

これが、NeRF/3DGS がアクティブセンシングの「生成モデル」 として最適である理由です。これは、観察されていない領域があらゆる視野角からどのように見えるかを「想像」し、真の情報ゲインを計算するために使用できます。

2. ActiveGAMER: アクティブガウスマップの再構築 (arXiv、2025)

論文: ActiveGAMER: 効率的なレンダリングによるアクティブガウスマッピング 著者: Liyan Chen、Huangying Zhan、Kevin Chen、Xiangyu Xu、Qingan Yan、Changjiang Cai、Yi Xu 出典: arXiv:2501.06897、2025 年 1 月 | CVPR 2025

主な貢献:

Active Perception + 3D Gaussian Splatting の最初の完全なシステム
シミュレーションと実環境で検証済み (Franka ロボットアーム + UAV プラットフォーム)
リアルタイム NBV プランニング (GPU 並列レンダリングアクセラレーション) を実装しました。

システムアーキテクチャ:

┌──────────────────────────────────────────────────────────┐
│                  ActiveGAMER Pipeline                   │
│                                                          │
│  Step 1: 初始建图（稀疏视角覆盖）                         │
│  → 3DGS 初始重建（有明显空洞）                           │
│                                                          │
│  Step 2: NBV 选择（主动感知循环）                        │
│  ┌────────────────────────────────────────────────────┐ │
│  │ 候选视角渲染（并行 ray casting through Gaussians）  │ │
│  │ → 渲染深度图 + 渲染 RGB + 渲染不确定性图             │ │
│  │ → 信息增益评估（基于深度不确定度）                   │ │
│  │ → 选择信息增益最大的下一视角                         │ │
│  └────────────────────────────────────────────────────┘ │
│                                                          │
│  Step 3: 移动 + 精细建图                                  │
│  → UAV 飞行到新视角                                      │
│  → 增量插入新 Gaussians                                  │
│  → 自适应致密化（只加有信息的区域）                       │
│                                                          │
│  Loop: 返回 Step 2，直到覆盖率达到阈值                    │
└──────────────────────────────────────────────────────────┘

主要なテクノロジー:

2.1 不確実性に基づく情報の獲得

重要な洞察: 3DGS のガウスパラメーターには本質的に 平均と共分散 (ガウス分布) があり、観測値の情報利得はパラメーター分布から直接計算できます。情報利得の計算:

ピ ク セ ル レ ン ダ リ ン グ

つまり、レンダリングされたピクセルの分散の合計 = パースペクティブが提供できる情報の量です。

レンダリングの差異が大きい → このエリアの地図はまだ粗く、さらなる観察が必要です
レンダリングの差異が小さい → このエリアの地図はすでに非常に優れていますが、観測上の利点は低いです

2.2 効率的な候補者の視点評価

従来の方法では、それぞれの視点を完全にレンダリングする必要があるため、候補となる視点の数は少なくなります (数十)。

ActiveGAMER の高速化:

スプラットベースのレイキャスティングを使用します (すべての詳細を追跡しない)
数百の候補パースペクティブのバッチおよび並行評価
上位 K 位の候補に対してのみ完全なレンダリングを実行する
全体的な NBV サイクルは約 10Hz (リアルタイムの可能性があります!)

2.3 適応型高密度化

すべての新しい視点がガウス分布を追加する価値があるわけではありません。

高情報領域: 奥行きの不連続性、視野角の大きな変化 → 高密度化
低情報領域: 重複領域、まばらなテクスチャ → スキップ

**これは、既存のブログの方向性に最も近いものでもあります。 ** あなたの uav-nerf-gs-planning はこの記事を直接引用できます。

3. SO-NeRF: プロキシターゲット用の NeRF NBV (arXiv、2023)

論文: SO-NeRF: サロゲート目標を使用した NeRF のアクティブビュープランニング 著者: Keifer Lee、Shubham Gupta、Sunglyoung Kim、Bhargav Makwana、Chao Chen、Chen Feng 出典: arXiv:2312.XXXXX、2023 年 12 月

主な貢献:

NBV 最適化における非凸性を解決するために提案された 代理目標
再構築の品質を直接最適化する問題 (微分不可能で重い計算) を回避します。

注: SO-NeRF は arXiv で公開されましたが、明確なトップ公開記録は見つかりませんでした。

方法:

传统 NBV：
  目标：max 重建质量（需要完整重建才能评估）
  局限：不可微、慢、需要多次渲染

SO-NeRF：
  目标：max 代理目标（可微、快速）
  代理：渲染深度的不连续性 + 视角覆盖度
  核心：深度梯度 = 物体边界 = 需要更多信息的地方
```**直感:** レンダリングされた深度マップ内の大きな勾配がある場所 (深度の突然変異 = オブジェクトの境界) は、まだモデル化されていない場所です。

**ActiveGAMER との違い:**
- SO-NeRF は深さ勾配をプロキシとして使用します (NeRF 自体を変更する必要はありません)。
- ガウス分散を備えた ActiveGAMER (GS 確率フレームワークが必要)
- この 2 つは相互に補完できます。SO-NeRF は候補者のスクリーニングを行い、ActiveGAMER は微調整を行います。

---

## 4. AutoNeRF: 自律的なデータ収集 (arXiv、2024)

**論文:** *AutoNeRF: 自律エージェントを使用した暗黙的なシーン表現のトレーニング*
**著者:** ピエール マルザ、レティシア マティニョン、オリヴィエ シモナン、ドゥルヴ バトラ、クリスチャン ウルフ、デヴェンドラ シン シャプロット
**出典:** arXiv、2024

**主な貢献:**
- **エージェント (ロボット) に NeRF トレーニング データを収集する場所を独自に決定させます**
- Habitat-simシミュレーション環境で検証済み
- 複数のアクティブ戦略を比較: ランダム / フロンティアベース / モデルベース

**主な調査結果:**
- シンプルなフロンティアベースの戦略はすでにランダムよりもはるかに優れています
- モデル予測タイプ (NeRF を使用して新しい視点の品質を予測) をさらに改善できます
- **アクティブ収集とパッシブ収集**: 最終的な再構成の品質が 40% 以上向上します

**UAV に関するインスピレーション:**
- UAV の空中遠近法により、フロンティア (未踏の境界) が地上ロボットの境界よりも大きくなります。
- 空中 NBV は **垂直方向** (水平方向の動きだけではなく) を考慮する必要があります
- 建物の上部と張り出した構造物の下には、UAV のユニークな「フロンティア」があります

---

## 5. NeRF を使用した能動的な知覚 (arXiv、2023)**論文:** *神経放射フィールドを使用したアクティブな知覚*
**著者:** Siming He、Christopher D. Hsu、Dexter Ong、Yifei Simon Shao、Pratik Chaudhari
**出典:** arXiv:2310.09892、2023 年 10 月

**これは、ブログに直接引用できる情報理論の基本的な論文です。 **

**主な貢献:**
**第一原則**から、アクティブ センシングが最大化すべきものを導き出します。

> **過去の観測から将来の観測への相互情報量を最大化**
> $$\max_a \quad I(Z_{過去} \cup Z_{新しい}(a); Y)$$

その中には:
- $Z_{過去}$ = 既存のセンサー観測
- $Z_{new}(a)$ = アクション $a$ の実行後に取得される新しい観測値
- $Y$ = 環境の完全な状態

**3 つの主要なコンポーネント:**

Scene Representation（场景表示） → NeRF 捕获几何 + 外观 + 语义 → 可以从任意视角渲染合成图像
Generative Model（生成模型） → NeRF 就是生成模型！给定 pose → 渲染 image → 给合成观测评估信息增益
Information-Driven Planner（信息驱动规划器） → 采样可行的机器人轨迹 → 在每条轨迹的末端视角渲染 → 选择渲染图像信息增益最大的轨迹


---

## 6. オブジェクトからシーンへ: NBV のスケーリング

### 6.1 単一オブジェクト NBV → シーンレベル NBV

初期の NBV の作業は、単一オブジェクトの完全な再構築に焦点を当てていました。
- オブジェクトをターンテーブルに置き、特定の角度に回転させて写真を撮ります
- 目標: すべての視点をカバーし、完全な 3D モデルを取得します。

**UAV の作業はシーンレベルです:**
- 都市の峡谷/内部空間全体
- 一つ一つ行うことはできません。全体的な計画が必要です
- **フロンティアベースの探索**が主な戦略となる

### 6.2 フロンティアベースの探索 + 情報獲得

**フロンティア** = 探検済みの地域と未踏の地域の境界。

经典 Frontier 探索：

从当前地图提取所有 frontier 点
选择最近的 frontier → 飞过去
扩大已知区域
重复

Frontier + Information Gain：

从当前地图提取所有 frontier 点
预测每个 frontier 的信息增益（用 NeRF/3DGS 渲染）
选择 info/max(distance) 最大的 frontier（权衡信息 + 能量）
飞过去
重复


**トレードオフの機能設計:**

$$
\text{スコア}(f) = \frac{\text{情報利得}(f)}{\text{旅行コスト}(f)} = \frac{I(f)}{\|p_{現在} - f\|_2}
$$

これは実際、飛行効率を確保するための UAV 探査における **「最大情報/距離比」** 基準です。

---

## 7. UAV シナリオにおける特定のアプリケーション### 7.1 都市部の峡谷探検

**シーンの特徴:**
・両側に高層ビルが立ち並び、上は空が広がっている
- 下は道路で、GNSS 信号が弱い
- 側面は建物のファサードであり、情報密度が高い

**NBV 戦略に関するアドバイス:**

Phase 1: 建立初始地图 → 沿建筑边缘飞行，捕获立面纹理 → 初始重建完成约 30-40%

Phase 2: 填充立面细节 → 选择立面渲染不确定度大的区域 → 飞到近处做精细扫描

Phase 3: 顶部覆盖 → 飞行到建筑顶面高度 → 俯视捕获屋顶结构

Phase 4: 精细化 → 重复，直到渲染不确定度全面低于阈值


### 7.2 既存の仕事への対応

|ブログに書いたこと | NBVシステムコンポーネントに対応 |
|-----------------|-----------------|
| 3D 空間モデリング (オクツリー/占有グリッド) |アクセシビリティの制約 + 衝突検出 |
| NeRF/3DGS マッピング |積極的に意識したシーン表現 |
|セマンティック SLAM |セマンティックを意識した NBV (「重要な」オブジェクトのスキャンを優先) |
|シミュレーション データ閉ループ |アクティブセンシングデータの強化 |

---

## 8. 主要な技術的詳細

### 8.1 不確かさの推定方法の概要

|方法 |計算方法 |該当するシナリオ |リアルタイム |
|------|--------|----------|--------|
| **モンテカルロ ドロップアウト** |多重順伝播、不確実性としての分散 | NeRF (ネットワークの変更が必要) |遅い |
| **代理勾配** |深度勾配をプロキシとしてレンダリング | SO-NeRF |速い |
| **ガウス分散** | GS 独自の共分散伝播 | 3DGS（アクティブゲーマー） |中 |
| **偶然的 + 認識的** |ノイズの不確実性と知識の不確実性を分離する |一般 |中 |

### 8.2 候補軌道の生成

NBV では、単に点を選択するだけではなく、**実現可能な軌道**を選択することも重要です。
- UAV には最大速度/加速度の制限があります
- 速度論的な実現可能性を考慮する必要がある (RRT*/BIT*/MPC)
- 通常、最初に候補エンドポイントを生成し、次に軌道の実現可能性を検証します。

---

## 9. 課題と未解決の質問

### 9.1 計算上のボトルネック

NBV の主な計算コスト:
- **候補の評価** (数百の候補 × レンダリング = ボトルネック)
- **情報ゲインの計算** (複数のレンダリングが必要)
- **NBV 最適化ループ** (通常は 10 ～ 50 回の反復が必要)**解決策:**
- 早期の低解像度レンダリングによる高速スクリーニング
- 上位 10 位の候補者のみを高解像度で正確に評価
- GPU並列化（並列レンダリングの候補）

### 9.2 動的環境

既存の NBV メソッドはほとんどが静的環境を前提としています。しかし、都会の峡谷では：
- 車が動いています
- 歩行者が行き交う
- 建物が建設中の可能性があります

**自由な質問:**
- 動的オブジェクトは情報利得の計算にどのように含まれますか?
- モデル化された領域が動的オブジェクトによってブロックされている場合はどうすればよいですか?
- オンライン増分アップデートと定期的な完全リビルドのトレードオフはありますか?

### 9.3 セマンティックを意識した NBV

現在の NBV 手法のほとんどは、幾何学的情報ゲインのみを考慮しています。しかし:
- 「この建物は駐車場よりも重要な博物館です」
- 「このファサードには看板があり、何もない壁よりも情報密度が高くなります。」

**解決策:**
- **セマンティック NeRF** を NeRF/3DGS に追加
- 情報利得 = 幾何学的利得 × 意味的重み
- uav-semantic-mapping.md に書いたことと似ています。

---

##10. 推奨調査ルート

**ルート A (迅速な結果):**
1. uav-nerf-gs-planning の記事に基づく
2. ActiveGAMERの情報利得計算モジュールに接続
3. 既存の UAV シミュレーション プラットフォームで検証する
4. 推定作業量: 2 ～ 3 か月

**ルート B (系統的研究):**
1. FIT-SLAM（FIMベースのアクティブSLAM）の実装
2. 地図表現を 3DGS システムに置き換えます
3. セマンティックを意識した重みを追加する
4. 実機での検証
5. 推定作業量: 6 ～ 12 か月

**ルート C (フロンティア探検):**
1. VLM (方向 1) を組み合わせて「セマンティック NBV」を実行します。
2. VLM は各フロンティアの意味論的な重要性を評価します
3. 情報ゲイン = 幾何学的ゲイン + 意味論的ゲイン
4. 推定作業量: 12 か月以上ですが、イノベーションの余地は十分にあります

---

## 📚 参考資料1. チェンら。 *ActiveGAMER: 効率的なレンダリングによるアクティブ ガウス マッピング*。 arXiv:2501.06897、2025 年 1 月。
2. リーら。 *SO-NeRF: サロゲート目標を使用した NeRF のアクティブ ビュー プランニング*。 arXiv:2312.XXXXX、2023 年 12 月。
3. 彼ら。 *神経放射フィールドを使用したアクティブな知覚*。 arXiv:2310.09892、2023 年 10 月。
4. マーザら。 *AutoNeRF: 自律エージェントを使用した暗黙的なシーン表現のトレーニング*。 arXiv、2024 年。
5. サラバナンら。 *FIT-SLAM: フィッシャー情報と通過可能性の推定に基づくアクティブ SLAM*。 arXiv:2401.09322、2024 年 1 月。
6. ザンら。 *自律型 UAV エージェントによるアクティブな人間の姿勢推定*。 arXiv、2024 年。
7. シャプロら。 *長距離ナビゲーションのための視覚的探索の学習*。 NeurIPS、2020。

Next-Best-View Planning と NeRF/3DGS の出会い: アクティブ センシングの情報フロンティア