都市低空 UAV ルート計画: NeRF および 3DGS ニューラル レンダリング手法

CVPR/ICCV/NeurIPS/IROS/ICRA 2022-2025 の最新作業をカバーする、都市 UAV アクティブ センシングおよびルート計画における NeRF/3DGS アプリケーションの概要

都市低空 UAV ルート計画: NeRF および 3DGS ニューラル レンダリング手法

方向 1: NeRF/3DGS + UAV アクティブ センシング計画 拡張章・技術ブログ シリーズ パート 1


1. 背景: 従来の環境表現のボトルネック

都市シーンにおける低高度無人航空機 (UAV) のオンライン ルート計画における中心的な課題の 1 つは、限られたコンピューティング能力の下で環境表現をリアルタイムで構築および更新する方法です。従来の手法は、空間表現としてボクセル グリッド (Voxel Grid) またはオクツリー (Octree) に依存しており、その限界が近年ますます顕著になってきています。

寸法ボクセル/オクツリーNeRF/3DGS
メモリの複雑さ ボクセル数、 が解像度の上限を決定します。連続微分可能な MLP、固定解像度の制約なし
更新速度増分更新ではローカル ボクセルの再書き込みが必要となり、空の領域でストレージが無駄になります。ポイント/ガウス増分挿入、 ローカル更新
オクルージョン推論幾何学的占有のみ、テクスチャ/セマンティック情報なし、予測能力が弱い暗黙的な連続密度フィールドは、レイ キャスティングとオクルージョン予測を自然にサポートします。
レンダリング品質視覚化には追加のテクスチャ マッピングが必要です。エンドツーエンドの微分可能なレンダリング、フォトリアリスティック

具体的には、UAV は都市の峡谷を飛行しながら、高層ビルのファサード、片持ち構造、動的車両、歩行者を処理する必要があります。ボクセル法は、連続空間を離散化した後、解像度とメモリのトレードオフに直面します。小さな障害物 (ワイヤー、枝など) をキャプチャするために解像度を上げると、メモリの爆発が発生します。解像度を下げると衝突の危険が生じます。 Mip-NeRF (Barron et al., 2021) によって導入された連続放射フィールド表現は、このジレンマに対する新しい解決策を提供し、3D Gaussian Splatting (Kerbl et al., 2023) の台頭により、リアルタイム レンダリングがさらに可能になります。


2. NeRF の基本: MLP からボリューム レンダリングまで

2.1 暗黙的な 3D シーン表現NeRF (Neural Radiance Fields、Mildenhall et al.、2020) の核となるアイデアは、MLP ネットワークを使用することです。

は、3D 位置 と視点方向 と、かさ密度 です。オリジナルの NeRF は、標準の 8 層完全接続ネットワーク (層ごとに 256 チャネル) を採用し、位置エンコーディングを使用して を高周波空間にマッピングして、シーン内の詳細なテクスチャをキャプチャします。この MLP は、既知のカメラ ポーズを使用した多数の画像を通じて最適化され、シーンの暗黙的な幾何学的表現と外観表現を学習します。

UAV オンライン計画シナリオの中心的な質問は次のとおりです: 飛行中にこの MLP を段階的に更新するにはどうすればよいですか?オリジナルの NeRF は数時間のオフライン トレーニングを必要とし、リアルタイムのニーズを満たすことができません。これにより、多重解像度ハッシュ エンコーディングを使用してマッピング時間を数時間から数秒に短縮する、Instant-NGP (Müller et al., 2022) などの高速マッピング手法の出現が促進されました。さらに、NICE-SLAM (Zhu et al., 2022) は、階層的な特徴グリッドを通じてリアルタイムの再構成を実現しており、その多重解像度アーキテクチャは特に UAV の増分更新シナリオに適しています。

2.2 ボリュームレンダリングの方程式

カメラの光学中心 から方向 に沿って放射する光線 が与えられると、NeRF のボリューム レンダリング方程式は、光線に沿った 点のサンプリングでアルファ合成を実行します。$$ \hat{C}(\mathbf{r}) = \sum_{i=1}^{K} T_i \cdot \alpha_i \cdot \mathbf{c}i, \quad T_i = \prod{j=1}^{i-1}(1 - \alpha_j), \quad \alpha_i = 1 - \exp(-\sigma_i \delta_i)

\theta^* = \arg\min_\theta \sum_{\text{rays}} | \hat{C}(\mathbf{r}; \theta) - C_{\text{GT}}(\mathbf{r}) |^2_2

You can't use 'macro parameter character #' in math mode ### 2.3 占有グリッドとの基本的な違い Occupancy Grid は各ボクセルを離散バイナリ変数 $p \in \{0, 1\}$ (占有/アイドル) としてモデル化し、NeRF は密度 $\sigma$ を連続的な体積密度 (体積密度) としてモデル化します。この設計には 2 つの重要な利点があります。 1. **アンチノイズ**: 実際の LIDAR 点群には測定ノイズがあり、離散占有ラスターは処理が難しく、体積密度は自然に不確実性をモデル化できます。 2. **微分可能な幾何学**: 密度場の勾配 $\nabla_\mathbf{x}\sigma$ は、追加の SDF 計算を行わずに表面法線ベクトルの方向を直接与えます。ただし、MLP の **ブラック ボックス特性**により、計画中に「特定の空間が占有されているかどうか」を直接クエリすることが困難になります。ボクセル密度はレイ統合を通じて推定する必要があり、効率が低くなります。これは 3DGS の台頭の重要な動機です。暗黙的な MLP を明示的なガウス プリミティブに置き換え、微分可能なレンダリング機能を維持しながら $O(N)$ の空間クエリの複雑さを実現します。 --- ## 3. 3D ガウス スプラッティング: リアルタイム レンダリングの新しいパラダイム ### 3.1 MLP から微分可能ガウス楕円体へ 3D Gaussian Splatting (3DGS、Kerbl et al.、2023) は、NeRF の MLP ネットワークを微分可能なガウス楕円体のセットに置き換え、単一のコンシューマーグレード GPU で 30 FPS を超える微分可能なレンダリングを達成し、SIGGRAPH 2023 Best Paper Award を受賞しました。各ガウス楕円体 $g_i$ は、次のパラメーターによって定義されます。

g_i(\mathbf{x}) = \exp\left( -\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu}_i)^\top \boldsymbol{\Sigma}_i^{-1}(\mathbf{x} - \boldsymbol{\mu}_i) \right)

調

勾配を逆伝播することにより、ガウス パラメーター が継続的に更新されます。 3DGS では、適応密度制御も導入されています。大きな勾配を持つガウスは 2 つの小さなガウスに分割され、透明度が低すぎるガウスは削除されるため、シーンのローカル解像度が自動的に調整されます。

3.2 レンダリング式

3DGS は、3D ガウスを 2D イメージ プレーンに投影し、深さの順序付けによってアルファ合成を実行することにより、NeRF のレイ マーチングの代わりにタイルベースのスプラッタリング (スプラッティング) レンダリングを使用します。

は学習可能な不透明度パラメーター、 は光線に沿った順序付けされたガウス リスト、 は投影変換後の 3D ガウスの 2D 座標です。 NeRF ボリューム レンダリングと比較すると、3DGS は光線に沿って ポイントを高密度にサンプリングする必要がなく、ガウス分布を画像平面に直接投影するため、計算効率が 1 ~ 2 桁向上します。

3.3 UAV オンライン計画に適しているのはなぜですか?

3DGS の 3 つの特徴により、3DGS は UAV オンライン計画の強力な候補となります。- インクリメンタル マッピング: MLP のようなグローバルな最適化を必要とせず、ガウス楕円体をフレームごとに追加/削除できます。 GS-SLAM (Zhou et al.、arxiv プレプリント、要検証) は、最大 30 FPS のトラッキング速度を持つ RGB-D カメラ用のリアルタイム高密度 SLAM を実装します。


4. UAV-NeRF/GS 融合ソリューション

4.1 代表的な作品のまとめ

GaussianUAV (arxiv プレプリント、検証対象) は、この方向におけるマイルストーンとなる作品と言われており、UAV オンライン計画フレームワークへの 3DGS の統合を提案しています。この研究が本当であれば、その中心的な貢献には次の設計アイデアが含まれるはずです。 ① ニューラル マッピング モジュールは 3DGS を使用してリアルタイム インクリメンタル マッピングを実現します。 ② 安全プランナは、ガウス表現に基づいて安全な回廊(Safe Corridor)を構築します。 ③ GPU アクセラレーション パイプラインは、マッピング計画の閉ループを実現します。ただし、複数回の検索を行った後、CVPR 2024 の公式論文リストや主流のデータベースでその論文を検証することはできません。読者は、最新の arXiv 記録をチェックして公式出版情報を確認することをお勧めします。

NICE-SLAM (Zhu et al., CVPR 2022) は、階層型ニューラル暗黙的コーディングに基づく高密度 SLAM を提案し、多重解像度フィーチャ グリッドを通じて 5 Hz のオンライン再構成を実現します。これは、元の iMap の 0.5 Hz の再構成速度よりも大幅に優れています。 NICE-SLAM の階層化された設計により、UAV シナリオにおける増分マッピングのニーズに特に適しています。

Vox-Fusion (Yi et al., ICRA 2023) は、初めてニューラル暗黙的表現とボクセル融合フレームワークを組み合わせて、単眼カメラのリアルタイム増分マッピングを実現し、UAV の高密度経路計画をサポートします。

Co-SLAM (Wang et al., CVPR 2023) は、ハッシュ エンコードされたニューラル暗黙的表現とジョイント座標エンコードを使用して、10 Hz のリアルタイム マッピングと位置決めを実現し、バンドル調整の最適化を通じてグローバルな一貫性を確保します。NKSR — ニューラル カーネル サーフェス再構成 (L. Ye et al.、CVPR 2023) ニューラル カーネル サーフェス再構成を通じて高品質の幾何学的再構成を可能にし、UAV 衝突検出のためのより正確なマップ表現を提供します。 NKSR はニューラル カーネル フィールドを使用して、大規模なシーンで優れた一般化機能を備え、高密度の点群から高品質のサーフェスを復元します。

4.2 Next-Best-View (NBV) アクティブ センシング

NBV 計画は、UAV アクティブ センシングの中核問題です。シーンの現在観察されている部分を考慮して、情報利得を最大化するために次の最適な観察姿勢を選択します。ニューラル レンダリング法は、NBV に新しい情報ゲイン測定法を提供します。これは、従来の幾何学的手法のカバレッジ統計に依存せず、探索のガイドにニューラル フィールドの不確実性を使用します。

情報ゲインの計算方法は、さまざまな方法に応じて大きく 3 つのカテゴリに分類できます。

  1. 光線の不確かさに基づく (InfoNeRF、arxiv プレプリントで表され、検証が必要): 各光線 について、その色予測の分散 を推定します。これは、同じ光線にノイズを注入し、複数回レンダリングすることで近似できます。 NBV は、全体的な相互情報量 を最大化する候補ポーズを選択し、光線予測が最も不確かな領域に UAV が飛行するように誘導します。
  2. 放射線場に基づく再構成損失 (NeRF-NBV、arxiv プレプリントで表され、検証が必要): 神経放射線場上の仮想視点のレンダリング品質の損失を直接予測し、新しい視点の再構成誤差を最大化できる候補ポーズを選択します。つまり、「現在のフィールド表現の最も弱い点」を探索します。
  3. ガウス カバレッジに基づく (ガウス NBV、arxiv プレプリントで表され、検証が必要): 3DGS の異方性ガウス分布を使用して、観測カバレッジと幾何学的不確実性を直接計算します。具体的には、仮説の「深度マップ」が候補ポーズごとにレンダリングされ、カバーされていないガウス分布または深度の不確実性の数がカウントされ、最も疎なガウス楕円体分布を持つ方向が NBV として選択されます。|メソッド |出版物 |情報利得の測定 |計画の頻度 |備考 | |------|------|---------------|-----------|------| |インフォネRF | NeurIPS 2022 |相互情報 (相互情報) | < 1 Hz | ⚠️ arxiv プレプリント、要検証 | | NeRF-NBV | ICRA 2023 |放射線場の再構築の不確実性 | ~1Hz | ⚠️ arxiv プレプリント、要検証 | |ガウスNBV | ICRA 2024 |ガウス カバレッジ | ~5Hz | ⚠️ arxiv プレプリント、要検証 | | UAV のニューラル暗黙マップ | ICRA 2023 |ボクセル再構成の不確実性 | ~5Hz | ⚠️ arxiv プレプリント、要検証 |

注意: 上の表で「⚠️ arxiv プレプリント、検証が必要」とマークされた論文は、対応する会議の公式議事録では検証できません。 NeurIPS 2022 / ICRA 2023 / ICRA 2024の論文リストから同名の論文を検索できませんでした。読者は、著者の最新の arXiv 投稿記録を確認するか、著者に連絡して確認することをお勧めします。 GaussianUAV についても同様ですが、CVPR 2024 の出版状況は確認できません。

4.3 都市部のシーンに関する特別な考慮事項

都市部の渓谷環境は、ニューラル レンダリング手法に独特の工学的課題をもたらし、アルゴリズム設計レベルで的を絞った適応を必要とします。

大規模なシーンの分解が主な困難です。都市ブロック全体を単一の MLP またはガウス分布のセットで表すことはできません。主流のソリューションでは、シーンを複数のローカル チャンクに分割する階層チャンク戦略が採用されています。各チャンクはニューラル フィールド表現のセット (または独立したガウス セット) を独立して維持し、UAV は移動中に隣接するチャンクを動的にロード/アンロードします。 VastGaussian (CVPR 2024) によって提案されたプログレッシブ データ パーティショニングとシームレスなマージ メカニズムは、このアイデアの代表的な成果です。建物のファサード オクルージョンはもう 1 つの重要な課題です。都市の建物の表面には緻密なテクスチャと複雑な幾何学的構造があり、生の NeRF では細いエッジでエイリアシング アーティファクトが発生する傾向があります。 Mip-NeRF 360 (Barron et al.、2022) は、アンチエイリアシング コーン レイ サンプリングと非線形シーン パラメータ化 (非線形シーン パラメータ化) を導入することで、この問題を効果的に軽減します。そのテクノロジーの核心は、スカラー距離 を光線 に沿った平均距離間隔に置き換えることで、MLP 機能がサンプリングされたエリアの実際の空間範囲を認識できるようになり、結果としてさまざまなスケールで正しいアンチエイリアスが得られます。

多層飛行計画には、3 次元空間の完全なモデリングが必要です。UAV は、水平方向の障害物を回避する必要があるだけでなく、床間の通路や異なる高さのカンチレバー構造などの垂直方向の次元の課題にも対処する必要があります。 2D 鳥瞰図方法はこのシナリオでは完全に機能せず、3D 神経フィールド表現に依存する必要があります。 Mip-NeRF 360 の無制限のシーン モデリング機能は、多層都市シーンにスケーラブルな技術基盤を提供します。


5. エンジニアリングの課題と最先端の方向性

5.1 GPU コンピューティング能力の制約

民生用 UAV (Jetson Orin など) の組み込み GPU の計算能力は、デスクトップ RTX 3090 の約 1/10 ~ 1/20 です。3DGS のリアルタイム レンダリングは、多数の行列演算に依存しています。現在のソリューションは一般に、コンピューティング能力の差を縮めるために次の戦略を採用しています。

5.2 動的物体干渉

都市の通りには、車両や歩行者などの動的なオブジェクトが溢れています。ニューラル フィールド手法はシーンの静的な仮定に依存しており、動的オブジェクトによってアーティファクトが生じ、マップが汚染される可能性があります。既存のソリューションは 3 つのレベルをカバーしています。- 動的前景セグメンテーション: 最適化プロセス中に、動的オブジェクトは独立したガウス グループ (GS-SLAM の動的除去戦略など) としてモデル化され、観測完了後にアクティブに削除されるため、メイン マップから動的干渉が分離されます。

5.3 ループ閉鎖の検出とマップの融合

UAV は、大規模な都市シーンで飛行するときに蓄積されたドリフトを修正するために閉ループ検出を必要とします。従来のアプローチは ICP またはバッグオブワード モデルに依存していますが、ニューラル フィールド手法はより表現力豊かな代替手段を提供します。

Kimera (Rosinol et al.、2023) は、ニューラル フィールド バックエンドと古典的なポーズ グラフ フロントエンドの間のブリッジ ソリューションとして機能できるモジュール式メトリック セマンティック SLAM フレームワークを提供します。

5.4 Sim2Real の移行

ニューラル レンダリング手法はシミュレーション環境 (Habitat-sim、Isaac Sim など) でトレーニングされており、実際の UAV に直接展開すると ドメイン ギャップ (テクスチャの違い、照明の変更、カメラのキャリブレーション エラー) が発生します。緩和戦略には次のものが含まれます。- ドメインのランダム化: シミュレーションでテクスチャ、照明条件、カメラの内部および外部パラメータをランダム化し、トレーニング データの多様性を高めます。


6. オープンソースコードリソース|プロジェクト |紙 |コード |メモ |

|------|------|------|------| | 3D ガウス スプラッティング | Kerbl 他、ACM ToG 2023 | graphdeco-inria/gaussian-splatting |オリジナル 3DGS 実装 | |インスタントNGP |ミュラーら、SIGGRAPH 2022 | NVlabs/instant-ngp |高速神経野マッピング | | GS-SLAM |周他、2023 | youmi-zym/GS-SLAM |リアルタイム GS SLAM、arxiv プレプリント | |コースラム | Wang 他、CVPR 2023 | HengyiWang/Co-SLAM |ジョイント座標とハッシュコーディング | |ナイススラム | Zhu 他、CVPR 2022 | cvg/nice-slam |階層型ニューラル暗黙的 SLAM | |ヴォックスフュージョン | Yi et al.、ICRA 2023 | ZhiangChen/Vox-Fusion |単眼リアルタイム増分マッピング | |キメラ |ロシノールら、RAL 2023 | MIT SPARK/キメラ |メトリックセマンティック SLAM フレームワーク | | NKSR | L. Ye 他、CVPR 2023 | nv-tlabs/NKSR | NVIDIA ニューラル コア表面再構成 |---

7. まとめと展望

NeRF/3DGS は、都市部の低高度 UAV ルート計画に、連続性、差別化可能性、フォトリアリスティック**という 3 つの主要な革新をもたらします。従来のボクセル法と比較して、ニューラル レンダリング法には、オクルージョン推論、情報利得の推定、および写真のようにリアルな視覚化において大きな利点があります。段階的に更新可能なガウス表現を備えた 3DGS は、UAV オンライン プランニングの実用化に最も近いテクノロジー パスとなっています。

ただし、大規模シーンのスケーラビリティ動的な環境の堅牢性エッジのリアルタイム パフォーマンスが、依然として実装を制限する 3 つの主要なボトルネックとなっています。将来の研究の方向性には次のものが含まれる可能性があります。


参考文献


※この記事は、都市低空ドローンルート計画に関する一連の記事の最初の拡張章です。フォローアップでは、方向 2: Transformer に基づくエンドツーエンドの計画について説明しますので、ご期待ください。 *