Planification d'itinéraires urbains de drones à basse altitude : méthodes de rendu neuronal NeRF et 3DGS

Aperçu de l'application de NeRF/3DGS dans la détection active et la planification d'itinéraires d'UAV urbains, couvrant les derniers travaux de CVPR/ICCV/NeurIPS/IROS/ICRA 2022-2025

Planification d’itinéraires urbains de drones à basse altitude : méthodes de rendu neuronal NeRF et 3DGS

Direction 1 : Planification de la détection active NeRF/3DGS + UAV Chapitre étendu · Série de blogs techniques, partie 1


1. Contexte : goulot d’étranglement de la représentation traditionnelle de l’environnement

L’un des principaux défis de la planification d’itinéraires en ligne de véhicules aériens sans pilote (UAV) à basse altitude dans des scènes urbaines est comment construire et mettre à jour la représentation de l’environnement en temps réel avec une puissance de calcul limitée. Les méthodes traditionnelles s’appuient sur une grille de voxels (Voxel Grid) ou un octree (Octree) comme représentation spatiale, et leurs limites sont devenues de plus en plus importantes ces dernières années :

DimensionsVoxel/OctreeNeRF/3DGS
Complexité de la mémoire nombre de voxels, détermine la limite supérieure de résolutionMLP continuellement différenciable, pas de contraintes de résolution fixes
Vitesse de mise à jourLa mise à jour incrémentielle nécessite la réécriture des voxels locaux, ce qui gaspille le stockage dans des zones videsInsertion incrémentielle ponctuelle/gaussienne, Mise à jour locale
Raisonnement par occlusionOccupation géométrique uniquement, aucune information texture/sémantique, faible capacité de prédictionLe champ de densité continue implicite prend naturellement en charge la projection de rayons et la prédiction d’occlusion
Qualité du renduNécessite un mappage de texture supplémentaire pour la visualisationRendu différenciable de bout en bout, photo-réaliste

Plus précisément, les drones doivent gérer des façades de bâtiments à plusieurs étages, des structures en porte-à-faux, des véhicules dynamiques et des piétons lorsqu’ils survolent des canyons urbains. La méthode voxel est confrontée à un compromis résolution-mémoire après discrétisation de l’espace continu : augmenter la résolution pour capturer de petits obstacles (tels que des fils, des branches) entraînera une explosion de la mémoire ; réduire la résolution introduira un risque de collision. La représentation du champ de rayonnement continu introduite par Mip-NeRF (Barron et al., 2021) offre une nouvelle solution à ce dilemme, et l’essor du Splatting gaussien 3D (Kerbl et al., 2023) rend en outre possible le rendu en temps réel.


2. Les bases de NeRF : du MLP au rendu de volume

2.1 Représentation implicite de la scène 3DL’idée centrale de NeRF (Neural Radiance Fields, Mildenhall et al., 2020) est d’utiliser un réseau MLP

mappe la position 3D et la direction de la vue pour colorer et densité apparente . Le NeRF original adopte un réseau standard entièrement connecté à 8 couches (256 canaux par couche) et utilise le codage positionnel pour mapper et à l’espace haute fréquence afin de capturer des textures détaillées dans la scène. Ce MLP est optimisé grâce à un grand nombre d’images avec des poses de caméra connues pour apprendre une représentation géométrique et d’apparence implicite de la scène.

Pour les scénarios de planification en ligne des drones, la question centrale est : Comment mettre à jour progressivement ce MLP pendant le vol ? Le NeRF original nécessite plusieurs heures de formation hors ligne et ne peut pas répondre aux besoins en temps réel. Cela a conduit à l’émergence de méthodes de cartographie rapides telles que Instant-NGP (Müller et al., 2022), qui utilise le codage de hachage multi-résolution pour compresser le temps de cartographie de quelques heures à quelques secondes. De plus, NICE-SLAM (Zhu et al., 2022) réalise une reconstruction en temps réel via des grilles de fonctionnalités hiérarchiques, et son architecture multi-résolution est particulièrement adaptée au scénario de mise à jour incrémentielle des drones.

2.2 Équation de rendu du volume

Étant donné un rayon émanant du centre optique de la caméra dans la direction , l’équation de rendu de volume de NeRF effectue une synthèse alpha sur l’échantillonnage de points le long du rayon :$$ \hat{C}(\mathbf{r}) = \sum_{i=1}^{K} T_i \cdot \alpha_i \cdot \mathbf{c}i, \quad T_i = \prod{j=1}^{i-1}(1 - \alpha_j), \quad \alpha_i = 1 - \exp(-\sigma_i \delta_i)

ùéééèééàéèéœééééééé

\theta^* = \arg\min_\theta \sum_{\text{rays}} | \hat{C}(\mathbf{r}; \theta) - C_{\text{GT}}(\mathbf{r}) |^2_2

You can't use 'macro parameter character #' in math mode ### 2.3 Différences essentielles par rapport à la grille d'occupation Occupancy Grid modélise chaque voxel comme une variable binaire discrète $p \in \{0, 1\}$ (occupé/inactif), tandis que NeRF modélise la densité $\sigma$ comme une densité volumétrique continue (densité volumétrique). Cette conception présente deux avantages clés : 1. **Anti-bruit** : les nuages de points LIDAR réels ont du bruit de mesure, les rasters d'occupation discrets sont difficiles à gérer et la densité volumétrique peut naturellement modéliser l'incertitude. 2. **géométrie différenciable** : le gradient du champ de densité $\nabla_\mathbf{x}\sigma$ donne directement la direction du vecteur normal de surface sans calculs SDF supplémentairesCependant, les **caractéristiques de la boîte noire** du MLP rendent difficile l'interrogation directe « si un certain espace est occupé » lors de la planification : la densité de voxels doit être estimée via l'intégration de rayons, ce qui est moins efficace. Il s'agit d'une motivation importante pour l'essor du 3DGS : il remplace le MLP implicite par des primitives gaussiennes explicites, atteignant une complexité de requête spatiale de $O(N)$ tout en conservant des capacités de rendu différentiables. --- ## 3. Splatting gaussien 3D : un nouveau paradigme pour le rendu en temps réel ### 3.1 Du MLP à l'ellipsoïde gaussien différentiable Le 3D Gaussian Splatting (3DGS, Kerbl et al., 2023) remplace le réseau MLP de NeRF par un ensemble d'ellipsoïdes gaussiens différenciables, permettant un rendu différentiable > 30 FPS sur un seul GPU grand public, et a remporté le prix du meilleur article SIGGRAPH 2023. Chaque ellipsoïde gaussien $g_i$ est défini par les paramètres suivants :

g_i(\mathbf{x}) = \exp\left( -\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu}_i)^\top \boldsymbol{\Sigma}_i^{-1}(\mathbf{x} - \boldsymbol{\mu}_i) \right)

ùéééàéééééééééàéééà

En rétropropagant le gradient, les paramètres gaussiens sont continuellement mis à jour. 3DGS introduit également le contrôle adaptatif de la densité : les gaussiennes avec de grands dégradés sont divisées en deux petites gaussiennes, et les gaussiennes avec une transparence trop faible sont supprimées, ajustant ainsi automatiquement la résolution locale de la scène.

3.2 Formule de rendu

3DGS utilise le rendu par éclaboussures basé sur des tuiles (Splatting) au lieu du ray-marching de NeRF, en projetant une gaussienne 3D sur un plan d’image 2D et en effectuant une composition alpha par ordre de profondeur :

est un paramètre d’opacité apprenable, est une liste gaussienne ordonnée le long du rayon et est la coordonnée 2D de la gaussienne 3D après transformation de projection. Par rapport au rendu de volume NeRF, 3DGS n’a pas besoin d’échantillonner de manière dense les points le long du rayon et projette directement les gaussiennes sur le plan de l’image, améliorant ainsi l’efficacité du calcul de 1 à 2 ordres de grandeur.

3.3 Pourquoi est-il adapté à la planification en ligne des drones ?

Trois caractéristiques du 3DGS en font un candidat sérieux pour la planification en ligne des drones :- Mappage incrémental : les ellipsoïdes gaussiens peuvent être ajoutés/supprimés image par image, sans avoir besoin d’une optimisation globale comme MLP. GS-SLAM (Zhou et al., préimpression arxiv, vérification requise) implémente un SLAM dense en temps réel pour les caméras RVB-D avec des vitesses de suivi allant jusqu’à 30 FPS


4. Solution de fusion drone-NeRF/GS

4.1 Résumé des travaux représentatifs

GaussianUAV (préimpression arxiv, sous réserve de vérification) est considéré comme un travail marquant dans cette direction, proposant l’intégration de 3DGS dans un cadre de planification en ligne d’UAV. Si ce travail est vrai, ses principales contributions devraient inclure les idées de conception suivantes : ① Le module de cartographie neuronale utilise 3DGS pour réaliser une cartographie incrémentielle en temps réel ; ② Le planificateur de sécurité construit un couloir de sécurité (Safe Corridor) sur une représentation gaussienne ; ③ Le pipeline d’accélération GPU réalise la boucle fermée de planification de mappage. Cependant, après plusieurs séries de recherches, l’article n’a pas pu être vérifié dans la liste officielle des articles du CVPR 2024 ou dans les bases de données grand public. Il est conseillé aux lecteurs de vérifier les derniers enregistrements arXiv pour confirmer les informations de publication officielles.

NICE-SLAM (Zhu et al., CVPR 2022) propose un SLAM dense basé sur un codage neuronal implicite hiérarchique pour obtenir une reconstruction en ligne à 5 Hz via des grilles de fonctionnalités multi-résolution, ce qui est nettement meilleur que la vitesse de reconstruction de 0,5 Hz de l’iMap d’origine. La conception en couches de NICE-SLAM le rend particulièrement adapté aux besoins de cartographie incrémentielle dans les scénarios de drones.

Vox-Fusion (Yi et al., ICRA 2023) combine pour la première fois une représentation neuronale implicite avec un cadre de fusion de voxels pour obtenir une cartographie incrémentielle en temps réel des caméras monoculaires et prendre en charge la planification de trajectoires denses pour les drones.

Co-SLAM (Wang et al., CVPR 2023) utilise une représentation implicite neuronale codée par hachage et un codage de coordonnées conjointes pour obtenir un mappage et un positionnement en temps réel à 10 Hz, et garantit une cohérence globale grâce à l’optimisation de l’ajustement du bundle.NKSR — Neural Kernel Surface Reconstruction (L. Ye et al., CVPR 2023) Permet une reconstruction géométrique de haute qualité grâce à la reconstruction de la surface du noyau neuronal, fournissant une représentation cartographique plus précise pour la détection des collisions d’UAV. NKSR utilise les champs de noyau neuronal pour récupérer des surfaces de haute qualité à partir de nuages ​​de points denses, avec d’excellentes capacités de généralisation dans des scènes à grande échelle.

4.2 Détection active Next-Best-View (NBV)

La planification NBV est la question centrale de la détection active des drones : étant donné la partie actuellement observée de la scène, sélectionnez la prochaine pose d’observation optimale pour maximiser le gain d’informations. La méthode de rendu neuronal fournit une nouvelle méthode de mesure du gain d’informations pour le NBV - ne s’appuyant plus sur les statistiques de couverture des méthodes géométriques traditionnelles, mais utilisant l’incertitude du champ neuronal pour guider l’exploration.

La manière dont le gain d’informations est calculé peut être grossièrement divisée en trois catégories selon différentes méthodes :

  1. Basé sur l’incertitude des rayons (représenté par InfoNeRF, préimpression arxiv, besoin de vérifier) : Pour chaque rayon , estimez la variance de sa prédiction de couleur , qui peut être approximée en injectant du bruit dans le même rayon et en le rendant plusieurs fois. NBV sélectionne la pose candidate qui maximise l’information mutuelle globale et guide l’UAV pour qu’il vole vers la zone où la prédiction des rayons est la plus incertaine
  2. Perte de reconstruction basée sur le champ de rayonnement (représentée par NeRF-NBV, préimpression arxiv, doit être vérifiée) : prédisez directement la perte de qualité de rendu de la perspective virtuelle sur le champ de rayonnement neuronal et sélectionnez la pose candidate qui peut maximiser l’erreur de reconstruction de la nouvelle perspective - explorant essentiellement “le point le plus faible de la représentation actuelle du champ”
  3. Basé sur la couverture gaussienne (représentée par NBV gaussien, préimpression arxiv, doit être vérifié) : utilisez la distribution gaussienne anisotrope de 3DGS pour calculer directement la couverture d’observation et l’incertitude géométrique. Plus précisément, une « carte de profondeur » hypothétique est rendue pour chaque pose candidate, le nombre de gaussiennes non couvertes ou l’incertitude de profondeur est comptée, et la direction avec la distribution ellipsoïde gaussienne la plus clairsemée est sélectionnée comme NBV.| Méthodes | Publication | Mesure du gain d’information | Fréquence de planification | Remarques | |------|------|-------------|---------|------| | InfoNeRF | NeuroIPS 2022 | Information mutuelle (Information mutuelle) | < 1 Hz | ⚠️ préimpression arxiv, vérification requise | | NeRF-NBV | ICRA2023 | Incertitude lors de la reconstruction du champ de rayonnement | ~1 Hz | ⚠️ préimpression arxiv, vérification requise | | NBV gaussien | ICRA2024 | Couverture gaussienne | ~5 Hz | ⚠️ préimpression arxiv, vérification requise | | Carte neuronale implicite pour les drones | ICRA2023 | Incertitude de la reconstruction du voxel | ~5 Hz | ⚠️ préimpression arxiv, vérification requise |

Remarque : Les articles marqués “⚠️ préimpression arxiv, doivent être vérifiés” dans le tableau ci-dessus ne peuvent pas être vérifiés dans les actes officiels de la conférence correspondante. L’ouvrage du même nom n’a pas pu être récupéré de la liste des articles NeurIPS 2022 / ICRA 2023 / ICRA 2024. Il est conseillé aux lecteurs de vérifier le dernier enregistrement de soumission arXiv de l’auteur ou de contacter l’auteur pour confirmation. Il en va de même pour GaussianUAV, dont le statut de publication CVPR 2024 ne peut être vérifié.

4.3 Considérations particulières pour les scènes urbaines

L’environnement des canyons urbains pose des défis d’ingénierie uniques aux méthodes de rendu neuronal, nécessitant une adaptation ciblée au niveau de la conception des algorithmes.

La décomposition de scènes à grande échelle est la principale difficulté : un pâté de maisons entier ne peut pas être représenté par un seul MLP ou un ensemble de gaussiennes. Les solutions grand public adoptent une stratégie de segmentation hiérarchique, divisant la scène en plusieurs segments locaux. Chaque morceau maintient indépendamment un ensemble de représentations de champ neuronal (ou des ensembles gaussiens indépendants), et l’UAV charge/décharge dynamiquement les morceaux adjacents pendant le mouvement. Le mécanisme de partitionnement progressif des données et de fusion transparente proposé par VastGaussian (CVPR 2024) est un travail représentatif de cette idée.L’occlusion des façades des bâtiments est un autre défi clé : les surfaces des bâtiments urbains ont des textures denses et des structures géométriques complexes, et le NeRF brut a tendance à créer un crénelage des artefacts sur les bords minces. Mip-NeRF 360 (Barron et al., 2022) atténue efficacement ce problème en introduisant l’échantillonnage de rayons coniques anti-aliasing et le paramétrage de scène non linéaire (paramétrage de scène non linéaire). Le cœur de sa technologie est de remplacer la distance scalaire par l’intervalle de distance moyen le long du rayon , ce qui permet à MLP de percevoir l’étendue spatiale réelle de la zone échantillonnée, ce qui entraîne un anticrénelage correct à différentes échelles.

La planification de vol multicouche nécessite une modélisation complète de l’espace tridimensionnel : le drone doit non seulement éviter les obstacles dans la direction horizontale, mais doit également faire face à des défis dimensionnels verticaux tels que les passages entre les étages et les structures en porte-à-faux à différentes hauteurs. Les méthodes de vue à vol d’oiseau 2D échouent complètement dans ce scénario et doivent s’appuyer sur des représentations de champ neuronal 3D. La capacité illimitée de modélisation de scènes du Mip-NeRF 360 fournit une base technique évolutive pour les scènes urbaines multicouches.


5. Défis d’ingénierie et orientations de pointe

5.1 Contraintes de puissance de calcul du GPU

La puissance de calcul du GPU intégré des drones grand public (tels que Jetson Orin) est d’environ 1/10-1/20 de celle du RTX 3090 de bureau. Le rendu en temps réel du 3DGS repose sur un grand nombre d’opérations matricielles. Les solutions actuelles adoptent généralement les stratégies suivantes pour réduire l’écart de puissance de calcul :

5.2 Interférence d’objet dynamique

Les rues de la ville sont remplies d’objets dynamiques tels que des véhicules et des piétons. Les méthodes de champ neuronal reposent sur l’hypothèse statique de la scène, et les objets dynamiques peuvent introduire des artefacts et contaminer la carte. Les solutions existantes couvrent trois niveaux :- Segmentation dynamique du premier plan : pendant le processus d’optimisation, les objets dynamiques sont modélisés sous forme de groupes gaussiens indépendants (comme la stratégie de suppression dynamique de GS-SLAM) et sont activement supprimés une fois l’observation terminée, isolant ainsi les interférences dynamiques de la carte principale.

5.3 Détection de fermeture de boucle et fusion de cartes

Les drones nécessitent une détection en boucle fermée pour corriger la dérive accumulée lors de vols dans des scènes urbaines à grande échelle. Alors que les approches traditionnelles s’appuient sur des modèles ICP ou du sac de mots, les méthodes du champ neuronal offrent une alternative plus expressive :

Kimera (Rosinol et al., 2023) fournit un cadre SLAM métrique-sémantique modulaire qui peut servir de solution de transition entre le backend du champ neuronal et l’interface classique du graphe de pose.

5.4 Migration Sim2Real

Les méthodes de rendu neuronal sont entraînées dans des environnements de simulation (tels que Habitat-sim, Isaac Sim), et il existe un écart de domaine (différences de texture, changements d’éclairage, erreurs d’étalonnage de la caméra) lorsqu’elles sont déployées directement sur de vrais drones. Les stratégies d’atténuation comprennent :- Domain Randomization : randomisez les textures, les conditions d’éclairage, les paramètres internes et externes de la caméra en simulation pour augmenter la diversité des données d’entraînement


6. Ressources de code source ouvert| Projet | Papier | Codes | Remarques |

|------|------|------|------| | Éclaboussures gaussiennes 3D | Kerbl et al., ACM ToG 2023 | graphdeco-inria/gaussian-splatting | Implémentation originale du 3DGS | | NGP instantané | Müller et al., SIGGRAPH 2022 | NVlabs/instant-ngp | Cartographie rapide du champ neuronal | | GS-SLAM | Zhou et coll., 2023 | youmi-zym/GS-SLAM | GS SLAM en temps réel, préimpression arxiv | | Co-SLAM | Wang et al., CVPR 2023 | HengyiWang/Co-SLAM | Coordonnées conjointes et codage de hachage | | NICE-SLAM | Zhu et al., CVPR 2022 | cvg/nice-slam | SLAM implicite neuronal hiérarchique | | Vox-Fusion | Yi et al., ICRA 2023 | ZhiangChen/Vox-Fusion | Cartographie incrémentielle monoculaire en temps réel | | Kiméra | Rosinol et al., RAL 2023 | MIT SPARK/Kimera | Cadre SLAM métrique-sémantique | | NKSR | L. Ye et al., CVPR 2023 | nv-tlabs/NKSR | Reconstruction de la surface du noyau neuronal NVIDIA |---

7. Résumé et perspectives

NeRF/3DGS apporte trois innovations majeures : continuité, différentiabilité et photoréalisme** à la planification d’itinéraires urbains de drones à basse altitude. Par rapport aux méthodes voxel traditionnelles, les méthodes de rendu neuronal présentent des avantages significatifs en matière de raisonnement par occlusion, d’estimation du gain d’informations et de visualisation photoréaliste. Avec sa représentation gaussienne progressivement mise à jour, 3DGS est devenu la voie technologique la plus proche de la mise en œuvre pratique de la planification en ligne des drones.

Cependant, l’évolutivité des scènes à grande échelle, la robustesse de l’environnement dynamique et les performances en temps réel restent les trois principaux goulots d’étranglement limitant la mise en œuvre. Les futures orientations de recherche pourraient inclure :


Références


*Cet article est le premier chapitre étendu d’une série d’articles sur la planification d’itinéraires urbains à basse altitude pour les drones. Le suivi couvrira la deuxième direction : la planification de bout en bout basée sur Transformer, alors restez à l’écoute. *