都市低空 UAV ルート計画: NeRF および 3DGS ニューラル レンダリング手法
方向 1: NeRF/3DGS + UAV アクティブ センシング計画 拡張章・技術ブログ シリーズ パート 1
1. 背景: 従来の環境表現のボトルネック
都市シーンにおける低高度無人航空機 (UAV) のオンライン ルート計画における中心的な課題の 1 つは、限られたコンピューティング能力の下で環境表現をリアルタイムで構築および更新する方法です。従来の手法は、空間表現としてボクセル グリッド (Voxel Grid) またはオクツリー (Octree) に依存しており、その限界が近年ますます顕著になってきています。
| 寸法 | ボクセル/オクツリー | NeRF/3DGS |
|---|---|---|
| メモリの複雑さ | ||
| 更新速度 | 増分更新ではローカル ボクセルの再書き込みが必要となり、空の領域でストレージが無駄になります。ポイント/ガウス増分挿入、 | |
| オクルージョン推論 | 幾何学的占有のみ、テクスチャ/セマンティック情報なし、予測能力が弱い | 暗黙的な連続密度フィールドは、レイ キャスティングとオクルージョン予測を自然にサポートします。 |
| レンダリング品質 | 視覚化には追加のテクスチャ マッピングが必要です。エンドツーエンドの微分可能なレンダリング、フォトリアリスティック |
具体的には、UAV は都市の峡谷を飛行しながら、高層ビルのファサード、片持ち構造、動的車両、歩行者を処理する必要があります。ボクセル法は、連続空間を離散化した後、解像度とメモリのトレードオフに直面します。小さな障害物 (ワイヤー、枝など) をキャプチャするために解像度を上げると、メモリの爆発が発生します。解像度を下げると衝突の危険が生じます。 Mip-NeRF (Barron et al., 2021) によって導入された連続放射フィールド表現は、このジレンマに対する新しい解決策を提供し、3D Gaussian Splatting (Kerbl et al., 2023) の台頭により、リアルタイム レンダリングがさらに可能になります。
2. NeRF の基本: MLP からボリューム レンダリングまで
2.1 暗黙的な 3D シーン表現NeRF (Neural Radiance Fields、Mildenhall et al.、2020) の核となるアイデアは、MLP ネットワークを使用することです。
UAV オンライン計画シナリオの中心的な質問は次のとおりです: 飛行中にこの MLP を段階的に更新するにはどうすればよいですか?オリジナルの NeRF は数時間のオフライン トレーニングを必要とし、リアルタイムのニーズを満たすことができません。これにより、多重解像度ハッシュ エンコーディングを使用してマッピング時間を数時間から数秒に短縮する、Instant-NGP (Müller et al., 2022) などの高速マッピング手法の出現が促進されました。さらに、NICE-SLAM (Zhu et al., 2022) は、階層的な特徴グリッドを通じてリアルタイムの再構成を実現しており、その多重解像度アーキテクチャは特に UAV の増分更新シナリオに適しています。
2.2 ボリュームレンダリングの方程式
カメラの光学中心
\theta^* = \arg\min_\theta \sum_{\text{rays}} | \hat{C}(\mathbf{r}; \theta) - C_{\text{GT}}(\mathbf{r}) |^2_2
g_i(\mathbf{x}) = \exp\left( -\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu}_i)^\top \boldsymbol{\Sigma}_i^{-1}(\mathbf{x} - \boldsymbol{\mu}_i) \right)
勾配を逆伝播することにより、ガウス パラメーター
3.2 レンダリング式
3DGS は、3D ガウスを 2D イメージ プレーンに投影し、深さの順序付けによってアルファ合成を実行することにより、NeRF のレイ マーチングの代わりにタイルベースのスプラッタリング (スプラッティング) レンダリングを使用します。
3.3 UAV オンライン計画に適しているのはなぜですか?
3DGS の 3 つの特徴により、3DGS は UAV オンライン計画の強力な候補となります。- インクリメンタル マッピング: MLP のようなグローバルな最適化を必要とせず、ガウス楕円体をフレームごとに追加/削除できます。 GS-SLAM (Zhou et al.、arxiv プレプリント、要検証) は、最大 30 FPS のトラッキング速度を持つ RGB-D カメラ用のリアルタイム高密度 SLAM を実装します。
- 微分可能な適応制御: 解像度の適応的な割り当てを実現するために、勾配信号を通じてガウス分布を自動的に分割/マージできます - 幾何学的に複雑な領域のガウス密度を自動的に増加させ、低勾配領域の冗長性を削減します
- 直接ジオメトリ クエリ: ガウス楕円体自体は空間内の明確なプリミティブであり、ドローンと各ガウス間の SDF (Signed Distance Field) の近似距離を直接計算し、安全な計画制約を生成できます。
4. UAV-NeRF/GS 融合ソリューション
4.1 代表的な作品のまとめ
GaussianUAV (arxiv プレプリント、検証対象) は、この方向におけるマイルストーンとなる作品と言われており、UAV オンライン計画フレームワークへの 3DGS の統合を提案しています。この研究が本当であれば、その中心的な貢献には次の設計アイデアが含まれるはずです。 ① ニューラル マッピング モジュールは 3DGS を使用してリアルタイム インクリメンタル マッピングを実現します。 ② 安全プランナは、ガウス表現に基づいて安全な回廊(Safe Corridor)を構築します。 ③ GPU アクセラレーション パイプラインは、マッピング計画の閉ループを実現します。ただし、複数回の検索を行った後、CVPR 2024 の公式論文リストや主流のデータベースでその論文を検証することはできません。読者は、最新の arXiv 記録をチェックして公式出版情報を確認することをお勧めします。
NICE-SLAM (Zhu et al., CVPR 2022) は、階層型ニューラル暗黙的コーディングに基づく高密度 SLAM を提案し、多重解像度フィーチャ グリッドを通じて 5 Hz のオンライン再構成を実現します。これは、元の iMap の 0.5 Hz の再構成速度よりも大幅に優れています。 NICE-SLAM の階層化された設計により、UAV シナリオにおける増分マッピングのニーズに特に適しています。
Vox-Fusion (Yi et al., ICRA 2023) は、初めてニューラル暗黙的表現とボクセル融合フレームワークを組み合わせて、単眼カメラのリアルタイム増分マッピングを実現し、UAV の高密度経路計画をサポートします。
Co-SLAM (Wang et al., CVPR 2023) は、ハッシュ エンコードされたニューラル暗黙的表現とジョイント座標エンコードを使用して、10 Hz のリアルタイム マッピングと位置決めを実現し、バンドル調整の最適化を通じてグローバルな一貫性を確保します。NKSR — ニューラル カーネル サーフェス再構成 (L. Ye et al.、CVPR 2023) ニューラル カーネル サーフェス再構成を通じて高品質の幾何学的再構成を可能にし、UAV 衝突検出のためのより正確なマップ表現を提供します。 NKSR はニューラル カーネル フィールドを使用して、大規模なシーンで優れた一般化機能を備え、高密度の点群から高品質のサーフェスを復元します。
4.2 Next-Best-View (NBV) アクティブ センシング
NBV 計画は、UAV アクティブ センシングの中核問題です。シーンの現在観察されている部分を考慮して、情報利得を最大化するために次の最適な観察姿勢を選択します。ニューラル レンダリング法は、NBV に新しい情報ゲイン測定法を提供します。これは、従来の幾何学的手法のカバレッジ統計に依存せず、探索のガイドにニューラル フィールドの不確実性を使用します。
情報ゲインの計算方法は、さまざまな方法に応じて大きく 3 つのカテゴリに分類できます。
- 光線の不確かさに基づく (InfoNeRF、arxiv プレプリントで表され、検証が必要): 各光線
について、その色予測の分散 を推定します。これは、同じ光線にノイズを注入し、複数回レンダリングすることで近似できます。 NBV は、全体的な相互情報量 を最大化する候補ポーズを選択し、光線予測が最も不確かな領域に UAV が飛行するように誘導します。 - 放射線場に基づく再構成損失 (NeRF-NBV、arxiv プレプリントで表され、検証が必要): 神経放射線場上の仮想視点のレンダリング品質の損失を直接予測し、新しい視点の再構成誤差を最大化できる候補ポーズを選択します。つまり、「現在のフィールド表現の最も弱い点」を探索します。
- ガウス カバレッジに基づく (ガウス NBV、arxiv プレプリントで表され、検証が必要): 3DGS の異方性ガウス分布を使用して、観測カバレッジと幾何学的不確実性を直接計算します。具体的には、仮説の「深度マップ」が候補ポーズごとにレンダリングされ、カバーされていないガウス分布または深度の不確実性の数がカウントされ、最も疎なガウス楕円体分布を持つ方向が NBV として選択されます。|メソッド |出版物 |情報利得の測定 |計画の頻度 |備考 | |------|------|---------------|-----------|------| |インフォネRF | NeurIPS 2022 |相互情報 (相互情報) | < 1 Hz | ⚠️ arxiv プレプリント、要検証 | | NeRF-NBV | ICRA 2023 |放射線場の再構築の不確実性 | ~1Hz | ⚠️ arxiv プレプリント、要検証 | |ガウスNBV | ICRA 2024 |ガウス カバレッジ | ~5Hz | ⚠️ arxiv プレプリント、要検証 | | UAV のニューラル暗黙マップ | ICRA 2023 |ボクセル再構成の不確実性 | ~5Hz | ⚠️ arxiv プレプリント、要検証 |
注意: 上の表で「⚠️ arxiv プレプリント、検証が必要」とマークされた論文は、対応する会議の公式議事録では検証できません。 NeurIPS 2022 / ICRA 2023 / ICRA 2024の論文リストから同名の論文を検索できませんでした。読者は、著者の最新の arXiv 投稿記録を確認するか、著者に連絡して確認することをお勧めします。 GaussianUAV についても同様ですが、CVPR 2024 の出版状況は確認できません。
4.3 都市部のシーンに関する特別な考慮事項
都市部の渓谷環境は、ニューラル レンダリング手法に独特の工学的課題をもたらし、アルゴリズム設計レベルで的を絞った適応を必要とします。
大規模なシーンの分解が主な困難です。都市ブロック全体を単一の MLP またはガウス分布のセットで表すことはできません。主流のソリューションでは、シーンを複数のローカル チャンクに分割する階層チャンク戦略が採用されています。各チャンクはニューラル フィールド表現のセット (または独立したガウス セット) を独立して維持し、UAV は移動中に隣接するチャンクを動的にロード/アンロードします。 VastGaussian (CVPR 2024) によって提案されたプログレッシブ データ パーティショニングとシームレスなマージ メカニズムは、このアイデアの代表的な成果です。建物のファサード オクルージョンはもう 1 つの重要な課題です。都市の建物の表面には緻密なテクスチャと複雑な幾何学的構造があり、生の NeRF では細いエッジでエイリアシング アーティファクトが発生する傾向があります。 Mip-NeRF 360 (Barron et al.、2022) は、アンチエイリアシング コーン レイ サンプリングと非線形シーン パラメータ化 (非線形シーン パラメータ化) を導入することで、この問題を効果的に軽減します。そのテクノロジーの核心は、スカラー距離
多層飛行計画には、3 次元空間の完全なモデリングが必要です。UAV は、水平方向の障害物を回避する必要があるだけでなく、床間の通路や異なる高さのカンチレバー構造などの垂直方向の次元の課題にも対処する必要があります。 2D 鳥瞰図方法はこのシナリオでは完全に機能せず、3D 神経フィールド表現に依存する必要があります。 Mip-NeRF 360 の無制限のシーン モデリング機能は、多層都市シーンにスケーラブルな技術基盤を提供します。
5. エンジニアリングの課題と最先端の方向性
5.1 GPU コンピューティング能力の制約
民生用 UAV (Jetson Orin など) の組み込み GPU の計算能力は、デスクトップ RTX 3090 の約 1/10 ~ 1/20 です。3DGS のリアルタイム レンダリングは、多数の行列演算に依存しています。現在のソリューションは一般に、コンピューティング能力の差を縮めるために次の戦略を採用しています。
- 非同期パイプライン: マッピング スレッド (ガウス最適化) と計画スレッド (軌道生成) が並行して実行され、ダブル バッファリングによって読み取りと書き込みの競合が回避されます。
- ダウンサンプリング レンダリング: 低解像度レンダリング (
) からターゲット解像度にアップサンプリングし、フレーム レートと引き換えに精度をある程度犠牲にします。 - プルーニング + カリング: 不透明度とカメラからの距離に基づくプルーニングと、ガウス楕円体の空間クリッピング (錐台カリング) を組み合わせることで、一般的なシーンでは、レンダリング品質に大きな影響を与えることなくガウスの数を 60 ~ 80% 削減できます。
5.2 動的物体干渉
都市の通りには、車両や歩行者などの動的なオブジェクトが溢れています。ニューラル フィールド手法はシーンの静的な仮定に依存しており、動的オブジェクトによってアーティファクトが生じ、マップが汚染される可能性があります。既存のソリューションは 3 つのレベルをカバーしています。- 動的前景セグメンテーション: 最適化プロセス中に、動的オブジェクトは独立したガウス グループ (GS-SLAM の動的除去戦略など) としてモデル化され、観測完了後にアクティブに削除されるため、メイン マップから動的干渉が分離されます。
- マルチエージェント コラボレーション: 複数の UAV が協力してマップを構築し、時間同期とポーズ マップの最適化を通じて動的オブジェクトをフィルタリングします。共同観察により、静的領域のカバレッジを加速することもできます
- 4D NeRF: D-NeRF (Pumarola et al., 2021) は、動的シーンをモデル化するために時間次元を導入し、追加の MLP ブランチを通じて各 3D ポイントの変形フィールド
を予測しますが、リアルタイム パフォーマンスが依然としてボトルネックです
5.3 ループ閉鎖の検出とマップの融合
UAV は、大規模な都市シーンで飛行するときに蓄積されたドリフトを修正するために閉ループ検出を必要とします。従来のアプローチは ICP またはバッグオブワード モデルに依存していますが、ニューラル フィールド手法はより表現力豊かな代替手段を提供します。
- ポーズ グラフの最適化 + ニューラル バンドルの調整: カメラのポーズとニューラル フィールドのパラメーターを共同で最適化し、BA フレームワークを通じて幾何学的な再投影エラーとフォトメトリック レンダリングの損失を同時に最小限に抑えます。
- レンダリングベースの閉ループ: UAV がマップされたエリアに戻ると、レンダリングされた画像と観察された画像の類似性 (PSNR/SSIM) を比較することによって閉ループが検出されます。類似性が急激に低下した場合は、ポーズのドリフトが発生している可能性があります。この方法は理論的には回転ドリフト
を検出できます
Kimera (Rosinol et al.、2023) は、ニューラル フィールド バックエンドと古典的なポーズ グラフ フロントエンドの間のブリッジ ソリューションとして機能できるモジュール式メトリック セマンティック SLAM フレームワークを提供します。
5.4 Sim2Real の移行
ニューラル レンダリング手法はシミュレーション環境 (Habitat-sim、Isaac Sim など) でトレーニングされており、実際の UAV に直接展開すると ドメイン ギャップ (テクスチャの違い、照明の変更、カメラのキャリブレーション エラー) が発生します。緩和戦略には次のものが含まれます。- ドメインのランダム化: シミュレーションでテクスチャ、照明条件、カメラの内部および外部パラメータをランダム化し、トレーニング データの多様性を高めます。
- ニューラル レンダリング適応: 少数 (10 ~ 50) の実画像を使用してニューラル フィールド パラメーターを微調整し、シミュレーションと実際の外観のギャップを埋めます。
- 不確実性を考慮した計画: 計画レベルで安全マージン (Safety Margin) を導入して、フィールドの残りのギャップを吸収し、マップの精度がシミュレーション レベルよりわずかに低い場合でも、軌道が安全なままであることを保証します。
6. オープンソースコードリソース|プロジェクト |紙 |コード |メモ |
|------|------|------|------| | 3D ガウス スプラッティング | Kerbl 他、ACM ToG 2023 | graphdeco-inria/gaussian-splatting |オリジナル 3DGS 実装 | |インスタントNGP |ミュラーら、SIGGRAPH 2022 | NVlabs/instant-ngp |高速神経野マッピング | | GS-SLAM |周他、2023 | youmi-zym/GS-SLAM |リアルタイム GS SLAM、arxiv プレプリント | |コースラム | Wang 他、CVPR 2023 | HengyiWang/Co-SLAM |ジョイント座標とハッシュコーディング | |ナイススラム | Zhu 他、CVPR 2022 | cvg/nice-slam |階層型ニューラル暗黙的 SLAM | |ヴォックスフュージョン | Yi et al.、ICRA 2023 | ZhiangChen/Vox-Fusion |単眼リアルタイム増分マッピング | |キメラ |ロシノールら、RAL 2023 | MIT SPARK/キメラ |メトリックセマンティック SLAM フレームワーク | | NKSR | L. Ye 他、CVPR 2023 | nv-tlabs/NKSR | NVIDIA ニューラル コア表面再構成 |---
7. まとめと展望
NeRF/3DGS は、都市部の低高度 UAV ルート計画に、連続性、差別化可能性、フォトリアリスティック**という 3 つの主要な革新をもたらします。従来のボクセル法と比較して、ニューラル レンダリング法には、オクルージョン推論、情報利得の推定、および写真のようにリアルな視覚化において大きな利点があります。段階的に更新可能なガウス表現を備えた 3DGS は、UAV オンライン プランニングの実用化に最も近いテクノロジー パスとなっています。
ただし、大規模シーンのスケーラビリティ、動的な環境の堅牢性、エッジのリアルタイム パフォーマンスが、依然として実装を制限する 3 つの主要なボトルネックとなっています。将来の研究の方向性には次のものが含まれる可能性があります。
- スパース ニューラル表現 + スパース プランニング: 主要な領域でのみニューラル フィールドを維持し、スパース最適化と組み合わせて都市規模の計画を実現します。
- マルチモーダル フュージョン: GNSS、IMU、LIDAR、ニューラル レンダリングなどのマルチセンサー信号を深く統合し、測位精度と地図の整合性を向上させます。
- 身体的インテリジェンス調整: 視覚言語モデル (VLM) と組み合わせて都市シーンのセマンティクスを理解することで、UAV が単なる「知覚回避」ではなく「理解計画」能力を持つことが可能になります。
参考文献
-
Barron, J.T.、Mildenhall, B.、Tancik, M.、Hedman, P.、Martin-Brualla, R.、および Srinivasan, P.P. (2021)。 Mip-NeRF: アンチエイリアシング神経放射フィールドのマルチスケール表現。 ICCV。 https://doi.org/10.1109/ICCV48922.2021.00598
-
Barron, J.T.、Mildenhall, B.、Verbin, D.、Srinivasan, P.P.、および Hedman, P. (2022)。 Mip-NeRF 360: 無制限のアンチエイリアシング神経放射フィールド。 CVPR。 https://doi.org/10.1109/CVPR52688.2022.00530- Kerbl, B.、Kopanas, G.、Leimkühler, T.、Drettakis, G. (2023)。リアルタイムの放射フィールド レンダリングのための 3D ガウス スプラッティング。 グラフィックスに関する ACM トランザクション、42(4)、1 ~ 14。 https://doi.org/10.1145/3592403
-
ミルデンホール、B.、スリニバサン、P.P.、タンシク、M.、バロン、J.T.、ラマモーティ、R.、および Ng, R. (2020)。 NeRF: ビュー合成のためのニューラル放射フィールドとしてシーンを表現します。 ECCV。 https://doi.org/10.1007/978-3-030-58452-8_24
-
ミュラー、T.、エヴァンス、A.、シード、C.、ケラー、A. (2022)。多重解像度ハッシュ エンコーディングを使用したインスタント ニューラル グラフィックス プリミティブ。 グラフィックスに関する ACM トランザクション、41(4)、1 ~ 15。 https://doi.org/10.1145/3528223.3528347
-
Pumarola、A.、Corona、E.、Pons-Moll、G.、Moreno-Nuguer、F. (2021)。 D-NeRF: ダイナミックなシーンのためのニューラル放射輝度フィールド。 NeurIPS、34、10318–10329。- Rosinol, A.、Abate, A.、Chang, Y.、Carlone, L. (2023)。 Kimera: リアルタイムのメトリックセマンティックローカリゼーションとマッピングのためのオープンソースライブラリ。 IEEE Robotics and Automation Letters、8(3)、1475 ~ 1482。 https://doi.org/10.1109/LRA.2023.3243839
-
ワン H.、ワン J.、アガピト L. (2023)。 Co-SLAM: ニューラル リアルタイム SLAM 用のジョイント座標およびスパース パラメトリック エンコーディング。 CVPR。 https://doi.org/10.1109/CVPR52729.2023.00446
-
Yi, Z.、Chen, Z., S.、GK、Carlone, L.、および Comport, A. I. (2023)。 Vox-Fusion: ニューラルの暗黙的な表面表現を備えた高密度 SLAM。 アイクラ。 https://doi.org/10.1109/ICRA46671.2023.10160912
-
Ye、L.、Misra、I.、Ranjan、R. (2023)。神経核表面の再構成。 CVPR。
-
Zhou, Y.、Sun, J.、Zha, Z.、Zeng, W. (2023)。 GS-SLAM: 3D ガウス スプラッティングによる高密度 SLAM。 arxiv:2308.04306。 (⚠️プレプリント、会場は要確認)- Zhu, Z.、Peng, S.、Larsson, V.、Cui, H.、Oswald, M. R.、Geiger, A.、および Pollefeys, M. (2022)。 NICE-SLAM: SLAM のニューラル暗黙的スケーラブル エンコーディング。 CVPR。 https://doi.org/10.1109/CVPR52688.2022.01278
※この記事は、都市低空ドローンルート計画に関する一連の記事の最初の拡張章です。フォローアップでは、方向 2: Transformer に基づくエンドツーエンドの計画について説明しますので、ご期待ください。 *