Planification de la recherche papier C : Planification de la détection active du drone FIM-3DGS

Ceci est un document de planification de thèse et non un tutoriel technique. L’objectif est de déterminer de manière globale l’orientation de la « détection active FIM + 3DGS + UAV », de la recherche documentaire à la conception expérimentale, et de déterminer ce que nous pouvons faire, où se trouvent les lacunes et comment l’écrire avant de l’envoyer.

0. Pourquoi veux-tu faire ça ?

Lorsque les drones effectuent des missions à basse altitude dans les villes, ils doivent d’abord établir une carte tridimensionnelle précise de l’environnement qui les entoure. Il s’agit non seulement d’une condition préalable à un vol en toute sécurité (savoir où se trouvent les obstacles), mais aussi de la base de la planification ultérieure d’une mission (le chemin le plus court pour une livraison express, la zone de couverture d’une mission de recherche et de sauvetage).

Trois étapes de la technologie de cartographie existante :

Cartographie classique (grille d’occupation/nuage de points) : Mature et fiable, mais la résolution est limitée, non différenciable et ne peut pas piloter directement la planification de l’apprentissage de bout en bout
NeRF (post-2020) : La qualité de la reconstruction est extrêmement élevée et peut être rendue de manière différentielle, mais la formation prend des minutes, voire des heures, ce qui est totalement inutilisable pour les drones volant en temps réel.
Éclaboussures gaussiennes 3D (3DGS, après 2023) : Vitesse de rendu >100 FPS, peut être mise à jour progressivement en ligne et devient une nouvelle norme pour la cartographie robotique en temps réel

3DGS résout le problème du « temps réel », mais apporte de nouveaux problèmes :

Contradiction fondamentale : Comment sélectionner de manière proactive le point de vue de prise de vue le plus précieux avec un budget de vol limité (temps/consommation d’énergie/sécurité) afin que 3DGS puisse converger vers une reconstruction de haute qualité dans les plus brefs délais ?

C’est le problème de la perception active Next-Best-View (NBV) : au lieu de voler passivement selon la trajectoire prédéfinie, chaque étape décide activement “où puis-je voler ensuite pour obtenir le plus de nouvelles informations”.

Pourquoi cette question est importante en ingénierie :

En recherche et sauvetage urbains, les drones doivent construire un modèle tridimensionnel du bâtiment en 5 minutes pour localiser les personnes piégées.
Lors de l’inspection de puissance des drones, une perspective de haute qualité couvrant tous les équipements avec une distance de vol minimale est requise.
Dans la planification logistique à basse altitude, la cartographie haute fidélité affecte le calcul précis des marges de sécurité des trajectoires

1. Examen approfondi des travaux connexes

1.1 Quatre générations d’évolution de la méthode NBV

Première génération : Géométrie NBV (2000–2018)

Basé sur des règles heuristiques telles que la direction normale de la surface, la maximisation de la couverture du tronc et la prédiction de l’occupation des voxels. Représente : le cadre de base NBV de Connolly (1985), le raisonnement d’occlusion de Maver et Bajcsy (1993). L’avantage est que le calcul est léger ; l’inconvénient est qu’il n’existe pas de définition mathématique de « l’information » et que l’optimalité ne peut être garantie.Deuxième génération : Théorie de l’information NBV (2018-2022)

Utilisez les informations mutuelles de Shannon ou les informations de Fisher pour quantifier « la quantité de nouvelles informations qu’un nouveau point de vue peut apporter » :

FCMI (ICRA 2020) : Informations mutuelles continues rapides, approximation sous forme fermée de l’information mutuelle des voxels occupés, atteignant un NBV en ligne de <1 Hz
FSMI (IJRR 2021) : Rapprochement plus rapide des informations mutuelles de Shannon pour le SLAM en temps réel

Cette génération de méthodes repose sur une base théorique solide, mais la représentation cartographique reste un voxel occupé à gros grain, qui ne peut pas être utilisé pour une reconstruction de haute précision.

3e génération : NBV du rendu neuronal (2022-2023)

Utilisation de l’incertitude NeRF pour la sélection NBV :

ActiveNeRF (ECCV 2022, Ran et al.) : Créez un modèle d’incertitude gaussien pour le champ de rayonnement NeRF et pilotez le NBV dans la zone présentant la plus grande variance. Il a jeté les bases du paradigme « rendu neuronal + perception active », mais a ensuite été souligné qu’il existe des angles morts dans l’estimation de l’incertitude des zones invisibles (découverte du NVF)
**NeU-NBV (IROS 2023, Jin et al.) : ** Prévoyez l’incertitude du rendu pour les vues futures avec les réseaux neuronaux LSTM sans cartographie explicite. L’avantage est une utilisation efficace du budget de la caméra ; l’inconvénient est la prédiction de la boîte noire, l’absence d’interprétabilité théorique et la difficulté de transférer vers de nouvelles scènes après la formation.
**AutoNeRF (ICRA 2024, Marza et al.) : ** L’acquisition de données autonome pilote le NeRF, une exploration de pointe + une stratégie basée sur un modèle, améliorant la qualité de la reconstruction de plus de 40 % par rapport à l’acquisition passive

Cette génération a établi le fait que « la perception active améliore la qualité du rendu neuronal », mais les limitations en temps réel du NeRF lui-même font que la fréquence de planification de ces méthodes est généralement inférieure à 1 Hz, ce qui est loin des applications réelles des drones.

Quatrième génération : 3DGS NBV (2024-2025)

La nature du rendu en temps réel du 3DGS (>100 FPS) révolutionne les limites des possibilités de perception active :- **ActiveGS (IEEE T-RO 2024, Ye et al., arXiv : 2412.17769) : ** Carte hybride (3DGS dense + voxels à gros grains), score de confiance gaussien basé sur « l’uniformité de la distribution des points de vue + similarité cosinus directionnelle + dispersion ». Le premier système complet de reconstruction active 3DGS, mais le score de confiance est une conception heuristique sans base théorique stricte

ActiveSplat (IEEE RA-L 2025) : Planification hiérarchique + cadre de cartographie/point de vue/planification unifié, intégrité technique élevée et extension d’ActiveGS
GauSS-MI (RSS 2025, Xie et al.) : Créez un modèle de probabilité pour chaque gaussien, définissez les informations mutuelles (MI) de Shannon pour la quantification visuelle de l’incertitude et obtenez un score NBV en ligne au niveau de la milliseconde. La méthode actuellement la plus proche du travail de cet article et la concurrente la plus directe

1.2 Suivi des applications des informations sur les pêcheurs

Fisher Information Matrix (FIM) a une longue histoire d’application en robotique :

Active SLAM (2005–) : Maximisation de l’observabilité des estimations de pose avec le déterminant du FIM (critère D-optimalité), Vallve & Andrade-Cetto (2015)
FIT-SLAM (ICRA 2024, Saravanan et al.) : Fusionne le FIM avec l’estimation de la traversabilité du terrain pour l’exploration active par des robots terrestres (UGV). Principales limitations : robot au sol uniquement, pas de 3DGS, pas de dynamique de drone
FisherRF (ECCV 2024 Oral, Jiang et al.) : Introduit pour la première fois FIM dans la sélection de points de vue NeRF, maximisant le gain d’informations étendu (EIG). Il s’agit du précurseur direct le plus important de cet article - notre travail équivaut à migrer FisherRF de NeRF vers 3DGS tout en ajoutant la dynamique des drones et les contraintes de sécurité

Nouveaux progrès en 2025 : L’ICCV 2025 comprend « Exploration guidée multimodale LLM et cartographie active à l’aide des informations de Fisher », qui combine le guidage sémantique LLM avec la cartographie active FIM, représentant la dernière tendance d’extension du domaine à la multimodalité.### 1.3 Tableau comparatif des publications clés

Méthode	Publication	Expressions	Mesure des informations	Drone	Planification en temps réel	Contraintes de sécurité	Limites inférieures théoriques
ActiveNeRF	ECVC 2022	NeRF	Écart de rendu	✗	✗ (<0,1 Hz)	✗	Faible
NeU-NBV	IROS 2023	NeRF	Prédiction LSTM	✗	✗ (~1Hz)	✗	✗
FIT-SLAM	ICRA2024	Carte d’occupation	Pêcheur	✗ (sol)	Rubrique	✗	✓
GenNBV	CVPR 2024	3DGS	Récompenses RL	✗	Rubrique	✗	✗
FisherRF	ECVC 2024	NeRF	Pêcheur	✗	✗	✗	✓
NVF	CVPR 2024	NeRF	Entropie bayésienne	✗	✗	✗	Faible
ActifGS	T-RO 2024	3DGS	Heuristique	Partie	✓	✗	✗
GauSS-MI	RSS2025	3DGS	Shannon MI	✗	✓ (niveau ms)	✗	Faible
FIM-3DGS (cet article)	Cible RA-L/ICRA	3DGS	Pêcheur	✓	✓ (<20 ms)	✓ (CBF)	✓ (CRB)

Principales lacunes (confirmées après revue de la littérature) :

Jusqu’à présent, aucun article ne satisfait simultanément aux quatre points suivants : ① Caractère théorique strict des informations Fisher (limite inférieure du CRB) ② Expression explicite en temps réel de 3DGS (rendu >30 FPS) ③ Contraintes dynamiques du drone 6-DoF ④ Planification de la sécurité basée sur la perception des obstacles

La combinaison de ces quatre points constitue le positionnement de cet article.

2. Définition formelle du problème

2.1 Paramètres systèmeEnvironnement : Scène de ville inconnue , la carte initiale est vide

Statut du drone : Pose 6-DoF

Capteur : Caméra RGBD aéroportée, paramètres internes , plage de profondeur

Représentation cartographique : Éclaboussures gaussiennes 3D incrémentielles, jeu de paramètres : Où est la moyenne gaussienne, est la covariance (définie positive), est le coefficient de couleur harmonique sphérique, est l’opacité. croît dynamiquement à mesure que le graphique est construit.

2.2 Contraintes

Contraintes de mouvement (dynamique du drone) :

Contraintes de hauteur (réglementation de l’espace aérien à basse altitude) :

Contraintes de sécurité (Fonction Barrière de Contrôle CBF) : où est la zone d’obstacle extraite du 3DGS actuel ( ensemble de niveaux de gaussienne à haute opacité).Budget de vol : Pas de (chaque étape est séparée par secondes)

2.3 Objectifs d’optimisation

Objectif global (optimisation séquentielle) :

où est la qualité de reconstruction 3DGS (synthèse pondérée de PSNR/SSIM/Coverage).

L’optimum global est NP-difficile (non-sous-modularité de la sélection du point de vue). Adoptez la Stratégie gourmande en une seule étape (en théorie, il existe un rapport d’approximation de , ce qui est vrai pour les fonctions sous-modulaires) :

Parmi eux, est l’ensemble des points de vue réalisables qui satisfont aux contraintes CBF à l’heure actuelle, et est le gain d’informations FIM dérivé ci-dessous.

3. Méthode de base : framework FIM-3DGS

3.1 Matrice d’informations Fisher des paramètres 3DGS

À partir du modèle d’observation : Au point de vue , la contribution au rendu du gaussien au pixel est :

Parmi eux :

et sont respectivement la moyenne et la covariance de la projection gaussienne sur le plan de la caméra (calculée par éclaboussures EWA), est la transmission.

En supposant un bruit gaussien additif : Observations réelles ,

Matrice d’informations de Fisher pour le vecteur de paramètres :

où représente tous les pixels du tronc de vue du point de vue . Notez que FIM est additif : les FIM de plusieurs cadres d’observation sont ajoutés directement sans recyclage.

FIM globale (matrice diagonale de blocs de toutes les gaussiennes) :

(En supposant que les paramètres des différentes gaussiennes sont conditionnellement indépendants au sein d’une seule observation, il s’agit d’une approximation du premier ordre dans le rendu alpha-compositing de 3DGS)

Borne inférieure de Cramér-Rao (garantie théorique) : Borne inférieure de la covariance de l’estimation des paramètres :

C’est le principal avantage de cet article par rapport à GauSS-MI : La matrice inverse de FIM est une limite inférieure stricte pour l’incertitude de l’estimation des paramètres, tandis que l’entropie de Shannon n’est qu’une limite supérieure de la quantité d’informations, et leur statut théorique est différent.

3.2 Gain d’information : critère D-optimalité

Choisissez le point de vue suivant pour maximiser le déterminant FIM (conception expérimentale D-optimale) :

Signification physique du critère d’optimalité D : Maximiser la précision de l’estimation des paramètres (déterminant = “volume d’informations” de l’espace des paramètres).

Mise à jour incrémentielle (approximation du complément de Schur) : Il est extrêmement coûteux de calculer directement le changement déterminant d’une matrice de grande dimension. Utilisez le lemme déterminant matriciel de l’identité de Woodbury :

Pour les scènes clairsemées (les paramètres gaussiens du 3DGS sont découplés au niveau de la plupart des points de vue), la formule ci-dessus peut être simplifiée comme suit :

Explication intuitive : Pour le gaussien, est l’ellipsoïde d’incertitude estimé actuel ; est les informations que le nouveau point de vue peut fournir ; le produit de trace des deux mesures “dans quelle mesure l’incertitude peut être réduite par les nouvelles informations”.

3.3 Approximation légère : noyau en temps réel

Un calcul précis de FIM nécessite de trouver le jacobien pour tous les paramètres de chaque gaussienne. Lorsque gaussien, le temps de calcul en une seule étape est de 500 ms, ce qui dépasse de loin l’exigence de 10 Hz en temps réel.** Proxy de variance de rendu proposé (RVP) :**

Observé : Le gain de trace du FIM est fortement corrélé à l’incertitude de rendu de la gaussienne. Définissez le score d’écart d’information pour chaque gaussienne :

Où est le nombre de fois où gaussien a été observé, est la norme de gradient de position projetée (peut être réutilisée dans la rétropropagation du rendu 3DGS sans calcul supplémentaire).

Gain FIM approximatif (GPU parallèle, O(N)) :

Où est le poids de rendu du point de vue en gaussien (obtenu directement à partir de la propagation directe 3DGS, aucune surcharge supplémentaire).

Erreur théorique limitée : Il peut être prouvé que , où est gaussien La valeur propre maximale de covariance de - pour les scènes urbaines bien structurées, cette limite d’erreur est dans l’expérience.

Comparaison de la complexité informatique :| Méthode | Complexité | 10k temps gaussien | 100k temps gaussien | |------|--------|--------|------------------| | FIM précise | O(N·|P|·D²) | ~500 ms | ~5 000 ms | | GauSS-MI (échantillonnage MC) | O(N·S) | ~50 ms | ~500 ms | | Rapprochement RVP (cet article) | O(N) | <5 ms | <20 ms |

3.4 NBV sensible à la sécurité (contrainte CBF)

Extraire les zones d’obstacles du 3DGS actuel :

Parmi eux, est la fonction de densité de la -ième gaussienne, et est le seuil de détermination d’obstacle (en prenant ).

Fonction de barrière de contrôle (CBF) :

Optimisation du NBV avec contraintes de sécurité (SafeNBV) :

L’ensemble des points de vue candidats est généré par échantillonnage sphérique de Fibonacci (), les de tous les points candidats sont évalués en parallèle sur le GPU, puis les points qui ne satisfont pas au CBF sont filtrés et la valeur maximale est prise.

Garantie de sécurité (proposition théorique) : Si l’actionneur du drone satisfait aux contraintes de contrôle de premier ordre (la vitesse est limitée), alors la condition CBF peut garantir que l’ensemble de la trajectoire satisfait (conclusion standard exponentielle CBF) via la projection QP.

3.5 Architecture du système

L’ensemble du système FIM-3DGS se compose de trois modules fonctionnant en parallèle :

┌─────────────────────────────────────────────────────────┐
│                    相机图像流 @ 30 Hz                    │
└──────────────┬──────────────────────────────────────────┘
               │
               ▼
┌─────────────────────────────────────────────────────────┐
│  Module 1: 增量 3DGS 更新（关键帧触发，~5 Hz）          │
│  ├── COLMAP-free 位姿估计（ORB-SLAM3 前端）             │
│  ├── 新关键帧：Gaussian 增密（opacity > 阈值的区域）     │
│  └── 旧 Gaussian 剪枝（opacity → 0 的 Gaussian）        │
└──────────────┬──────────────────────────────────────────┘
               │ 更新 Θ_t
               ▼
┌─────────────────────────────────────────────────────────┐
│  Module 2: FIM 信息场计算（每步，~10 Hz）                │
│  ├── 球面 Fibonacci 采样 500 个候选视点                  │
│  ├── GPU 并行：RVP 近似评估 ΔĨ(v) for each v            │
│  ├── CBF 安全过滤（剔除 h_CBF(v) < 0 的视点）          │
│  └── 输出：最优视点 v*（含信息增益/距离比值最大）        │
└──────────────┬──────────────────────────────────────────┘
               │ v*
               ▼
┌─────────────────────────────────────────────────────────┐
│  Module 3: UAV 轨迹生成与执行（连续，~100 Hz）           │
│  ├── RRT*：当前位置 → v* 的无碰撞轨迹                   │
│  ├── MPC：跟踪轨迹（速度/加速度约束滚动优化）            │
│  └── 在线重规划：如检测到新障碍物则触发重新规划          │
└─────────────────────────────────────────────────────────┘

4. Conception expérimentale

4.1 Sélection de la plateforme de simulation

Plateforme	Positionnement	Raison de la sélection
AirSim + Unreal Engine 5	Plateforme expérimentale principale	Dynamique du drone physiquement réaliste ; Le modèle 3D de la ville UE5 peut être directement utilisé comme vérité terrain ; prend en charge l’intégration ROS2
Isaac Sim (Omnivers)	Tests matériels dans la boucle	Simulation physique accélérée par GPU ; Tests intégrés Jetson Orin ; lancer de rayons
Gazebo Harmonique	Prototypage rapide	Léger; adapté à une itération rapide lors de la phase de développement de l’algorithme

Configuration de la scène AirSim :

Modèle de ville : “City Sample” d’Unreal Engine Marketplace (licence gratuite d’Epic Games, canyon urbain réaliste)
Paramètres physiques du drone : DJI Mavic 3 Pro (masse 895 g, vitesse maximale 21 m/s, vitesse de montée maximale 8 m/s)
Caméra : RGBD 4K à 30 ips, distance focale 24 mm, plage de profondeur 0,5 à 40 m
Informatique : NVIDIA RTX 3090 (rendu de simulation) + Jetson Orin NX 16G (simulation d’algorithme embarqué)

4.2 Ensemble de données| Ensemble de données | Source | Utilisation | Échelle |

|--------|------|------|------| | MatriceCity | ICCV 2023, HKU | Ensemble de test principal de drone urbain | 67 itinéraires, plus de 60 000 images, couvrant des pâtés de maisons complets | | ScanNet v2 | CVPR 2017 | Vérification du développement rapide en intérieur | 1513 scènes, 2,5 millions d’images | | Réservoirs et temples | SIGGRAPH Asie 2017 | Comparaison côte à côte avec SOTA | 21 scènes, mixtes intérieures et extérieures | | MélangéMVS | CVPR 2020 | Test de généralisation en extérieur | 113 scènes, 17 000 images | | Auto-collecte en ligne AirSim | Génération de simulation de cet article | Expérience en boucle fermée de reconstruction active en ligne | 10 scènes urbaines × 5 répétitions |

Notes clés de MatrixCity : Lancé par l’Université de Hong Kong en 2023, il est spécialement conçu pour les NeRF/3DGS urbains. Il s’agit actuellement du seul ensemble de données de rendu neuronal urbain à grande échelle contenant plusieurs itinéraires en perspective d’UAV. Ses 67 itinéraires comportent tous des poses de caméra de vérité terrain, qui peuvent être directement utilisées pour :

Évaluation hors ligne (en fonction de la trajectoire de la caméra, évaluer la qualité de la reconstruction)
Expérience active en ligne (basée sur la rediffusion de l’environnement de simulation)

4.3 Système d’indicateurs d’évaluation

Qualité de la reconstruction (noyau) :

Efficacité de la planification proactive :

**Coverage@N (%) : ** La proportion de la surface complète de la scène couverte par la reconstruction pour un budget d’image donné
InfoGain Rate (nats/m) : Gain d’informations FIM par unité de distance de vol, mesurant l’efficacité de l’exploration
Courbe PSNR@budget : Courbe ascendante du PSNR à mesure que le nombre d’images de vol augmente (la différence de zone par rapport à la ligne de base quantifie l’avantage)

Sécurité :

Taux de collision (%) : La proportion de la trajectoire d’exploration entière qui est < loin des obstacles (cible : 0 %)
Marge de sécurité (m) : La distance minimale moyenne jusqu’à l’obstacle le plus proche (le plus grand sera le mieux)

Efficacité informatique :

Latence de planification (ms) : Temps de décision NBV en une seule étape (cible : <20 ms)
Rendu FPS (Hz) : Fréquence d’images du rendu en ligne 3DGS (Cible : >30 Hz)
Mémoire GPU (Go) : Utilisation maximale de la mémoire graphique (cible : <8 Go)

4.4 Méthode de référence| Référence | Liens Open Source | Descriptif |

|------|---------|------| | Aléatoire | Auto-implémenté | Échantillonnage aléatoire de points de vue réalisables | | Basé sur les frontières | Auto-mise en œuvre (détection des frontières basée sur 3DGS) | Méthode d’exploration classique, base de référence solide et reproductible | | FisherRF | github.com/JiangWenPL/FisherRF | ECCV 2024, FIM+NeRF, remplace NeRF→3DGS pour une comparaison équitable | | GauSS-MI | github.com/JohannaXie/GauSS-MI | RSS 2025, le concurrent le plus direct | | ActiveGS | github.com/Li-Yuetao/ActiveGS | T-RO 2024, reconstruction active heuristique 3DGS | | GenNBV | github.com/zjwzcx/GenNBV | CVPR 2024, RL Stratégie NBV |

4.5 Conception d’expériences d’ablation| Termes d’ablation | Variantes | Objectifs de validation |

|--------|------|---------| | Supprimer les contraintes de sécurité du CBF | FIM-3DGS-NoSafe | Quantifier l’impact des contraintes de sécurité sur le taux de collision et la qualité de la planification | | Remplacement de FIM par Shannon MI | MI-3DGS | Comparaison quantitative des avantages théoriques du FIM par rapport au Shannon MI (comparaison directe avec GauSS-MI) | | Utilisez NeRF pour remplacer 3DGS | FIM-NeRF | Vérifier la nécessité d’une expression en temps réel du 3DGS (répliquer l’idée de FisherRF) | | Remplacement de l’approximation RVP par FIM exact | FIM-3DGS-Exact | Expérience de compromis entre erreur d’approximation et vitesse de calcul | | Pas de rapport information/distance | FIM-3DGS-NoRatio | Gain d’information maximum pur (sans tenir compte du coût du vol) |

4.6 Résultats expérimentaux attendus (vérification des hypothèses)

Sur la base des données de la littérature et de la conception de la méthode, les résultats suivants sont estimés (mis à jour après les expériences) :

Indicateurs	GauSS-MI (RSS’25)	FIM-3DGS (estimation)	Avantage attendu
PSNR @50 images	~24 dB	~25,5 dB	+1,5dB
Couverture @50 images	~75%	~82%	+7%
Latence de planification	~30 ms	<20 ms	1,5 fois plus rapide
Taux de collisions	N/A (pas de mécanisme de sécurité)	0%	—
Mémoire GPU	~6 Go	<8 Go	Acceptable

5. Déclaration d’innovation (pour les évaluateurs)

**Cet article propose FIM-3DGS : un système de reconstruction 3DGS basé sur les informations de Fisher pour la détection active des drones urbains. **

Contribution 1 (Théorie)

L’expression sous forme fermée de la matrice d’information de Fisher pour les paramètres primitifs explicites du 3DGS est dérivée pour la première fois et sa stricte équivalence avec la limite inférieure de Cramér-Rao est prouvée, fournissant une interprétabilité de la théorie de l’information pour la reconstruction active du 3DGS.Formule empirique d’entropie de Shannon différente de GauSS-MI (RSS 2025) :

L’entropie de Shannon est la limite supérieure de la quantité d’informations et n’a aucune relation mathématique directe avec la précision de l’estimation des paramètres.
La matrice inverse de FIM est la limite inférieure stricte (CRB) de la covariance de l’estimation des paramètres, qui reflète directement le degré d’identifiabilité des paramètres reconstruits.
Théoriquement, maximiser le déterminant FIM (D-optimal) équivaut à minimiser le volume d’estimation des paramètres (volume ellipsoïde), alors que minimiser l’entropie de Shannon ne peut garantir cette propriété

Contribution 2 (Méthode)

L’approximation RVP (Rendering Variance Proxy) est proposée pour réduire la complexité du calcul FIM exact à et prouver sa limite supérieure sur l’erreur d’approximation.

Dans une scène urbaine à l’échelle gaussienne de 10 ^ 5 $, RVP atteint une décision NBV <20 ms, ce qui est environ 1,5 fois plus rapide que l’estimation d’entropie de Monte Carlo de GauSS-MI et environ 250 fois plus rapide que la FIM précise, tout en garantissant une erreur d’estimation du gain d’information de <5 %.

Contribution trois (système)

Pour la première fois, le gain d’informations FIM et les contraintes de sécurité CBF sont unifiés dans le cadre de planification active UAV 6-DoF.

Des expériences sur la scène des canyons urbains (simulation MatrixCity + AirSim) prouvent que par rapport au GauSS-MI (pas de mécanisme de sécurité), le FIM-3DGS peut encore améliorer le PSNR ≥1,5 dB et la couverture ≥7 % sous des contraintes de sécurité sans collision, vérifiant qu’une planification soucieuse de la sécurité et une reconstruction de haute qualité peuvent avoir les deux.

6. Différences profondes avec GauSS-MI (RSS 2025)

C’est une question que les évaluateurs doivent se poser : “GauSS-MI a défini l’information mutuelle pour 3DGS. Quelle est la différence essentielle entre vous et lui ?”

Réponses standard à préparer :| Dimensions | GauSS-MI (RSS 2025) | FIM-3DGS (cet article) | |------|--------------------------|----------------| | Mesure d’information | Entropie de Shannon | Informations sur les pêcheurs | | Base théorique | Théorie de l’information (limite supérieure du contenu de l’information) | Théorie de l’estimation statistique (limite inférieure stricte de l’incertitude des paramètres, CRB) | | Méthode de calcul | Entropie estimée par échantillonnage de Monte Carlo | Jacobien analytique + approximation légère RVP | | Montant de calcul | (S est le nombre d’échantillons MC) | (après approximation) | | Objectif d’optimisation | Maximiser la réduction de l’entropie visuelle | Maximiser le gain d’information D-optimal (critère déterminant) | | Modélisation paramétrique | Distribution de probabilité dans l’espace colorimétrique | Modélisation directe des paramètres 3DGS (μ, Σ, c, o) | | Dynamique des drones | Aucun (expériences sur ordinateur/en intérieur) | 6-DoF SE(3) Contraintes de vitesse/vitesse angulaire | | Contraintes de sécurité | Aucun | Garantie de sécurité explicite CBF (zéro collision) | | Échelle expérimentale | Objets de bureau / petites scènes d’intérieur | Canyon de la ville (îlot urbain MatrixCity) |

Argument principal : Les informations mutuelles FIM et Shannon sont des concepts liés mais non équivalents dans la théorie de l’information. Dans le contexte de l’estimation des paramètres, FIM fournit une mesure de l’efficacité de l’estimation statistique (directement liée à la précision de la reconstruction), tandis que l’entropie de Shannon mesure le caractère aléatoire de la distribution de probabilité (indirectement liée à la précision de la reconstruction). Cette différence théorique peut être vérifiée quantitativement expérimentalement grâce à des expériences d’ablation (MI-3DGS vs FIM-3DGS).

7. Stratégie de soumission

Revues/conférences cibles (par priorité)Souhaité : Lettres IEEE sur la robotique et l’automatisation (RA-L)

Facteur d’impact : 5,2 (2024)
Cycle de révision : 2 à 3 mois (rapide)
Limite de pages : 8 pages
Avantages : ActiveSplat (l’un des ouvrages les plus pertinents de cet article) est également publié dans RA-L, et le groupe de critiques est précis ; RA-L accepte les expériences de simulation

Soumission simultanée : ICRA 2027

Date limite : environ 2026/09 (la soumission a lieu environ en septembre de chaque année)
La soumission conjointe RA-L+ICRA est une opération standard (une soumission, après acceptation, peut être affichée dans ICRA)
Avantages : ICRA est la plus grande conférence dans le domaine de la robotique à forte exposition

Alternative : IROS 2026

Délai : environ 2026/03 (le temps est serré, l’expérimentation doit être réalisée 3 mois à l’avance)
Taux d’acceptation ~ 40%, légèrement plus détendu que l’ICRA
Si la date limite de mars peut être respectée, la priorité sera donnée

Édition étendue du journal : IEEE T-RO

Peut être étendu à la version de la revue T-RO après acceptation de RA-L (pas besoin de soumettre à nouveau, transfert de réviseur)
IF 7.4, SCI Q1, d’autres expériences doivent être ajoutées (expériences sur machine réelle ou simulations à grande échelle)

Examiner la prévision des risques et la réponse

Commentaires potentiels sur l’examen	Stratégies d’adaptation
”Pas assez de différence avec GauSS-MI”	Quantifiez la différence à l’aide du tableau de la section 6 + expériences d’ablation (MI-3DGS vs FIM-3DGS)
“La base théorique de l’approximation RVP est insuffisante”	Théorème de la limite supérieure de l’erreur d’approximation supplémentaire (preuve de proposition) + erreur de vérification expérimentale <5%
“Seulement de la simulation, pas de véritables expériences sur machine”	RA-L accepte les expériences de simulation pure ; Le modèle physique AirSim est précis ; les expériences sur des machines réelles en intérieur peuvent être complétées lors de la soumission d’une version modifiée
”Les scènes de canyons urbains ne sont pas assez difficiles”	MatrixCity est un ensemble de données à grande échelle accepté par l’ICCV 2023 ; compléter les résultats qualitatifs de scènes d’occlusion complexes
”Les contraintes de sécurité sont trop simples (CBF)“	Soulignez que c’est la première fois que des contraintes de sécurité sont introduites dans la planification de la NBV ; simplicité ne veut pas dire sans importance, et les expériences ont prouvé qu’il n’y avait aucune collision

8. Parcours d’exécution de 12 mois (spécial Papier C)

时间        任务                                   里程碑
────────────────────────────────────────────────────────────────────
2026/06    • 实现 FIM-3DGS 核心模块                ▶ 代码框架完成
           • 3DGS 参数 Jacobian 推导与验证
           • RVP 近似实现（GPU CUDA 内核）

2026/07    • AirSim + UE5 城市场景搭建            ▶ 仿真平台就绪
           • 与 GauSS-MI / FisherRF 代码集成
           • 在 ScanNet 上的初步验证实验

2026/08    • MatrixCity 离线实验（与所有基线对比）  ▶ 实验数据完整
           • AirSim 在线主动重建实验
           • 消融实验全套（5 个变体）

2026/09    • 写稿（RA-L 格式，8 页）              ◉ 投稿 RA-L + ICRA 2027
           • 审稿人问题预演（Section 6 准备充分）
           • 语言润色（英文检查）

2026/10    ─── 等待审稿（RA-L 约 2–3 个月）──────────────────────────

2026/12    • 收到审稿意见                         ▶ 修改/接受
           • 若需补充实验：准备真实机实验（室内场景）

2027/01    ◉ 修改稿提交（若大修）                  ▶ 目标：接受并在 ICRA 展示
────────────────────────────────────────────────────────────────────

Annexe : Liste de référenceDocuments de base qui doivent être cités (triés par priorité de citation) :1. FisherRF : Jiang W et al., “FisherRF : Active View Selection and Mapping with Radiance Fields using Fisher Information”, ECCV 2024 (oral)

GauSS-MI : Xie Y et al., « GauSS-MI : Gaussian Splatting Shannon Mutual Information for Active 3D Reconstruction », RSS 2025
ActiveGS : Ye Y et al., “ActiveGS : Reconstruction de scène active à l’aide d’éclaboussures gaussiennes”, IEEE T-RO 2024
ActiveSplat : Li Y et al., “ActiveSplat : Reconstruction de scènes haute fidélité via des éclaboussures gaussiennes actives”, IEEE RA-L 2025
Texte original 3DGS : Kerbl B et al., “Éclaboussures gaussiennes 3D pour le rendu de champ de rayonnement en temps réel”, ACM ToG 2023
GenNBV : Chen X et al., “GenNBV : Politique généralisable de prochaine meilleure vue pour la reconstruction 3D active”, CVPR 2024
NVF : Xue S et al., « Champ de visibilité neuronale pour la cartographie active basée sur l’incertitude », CVPR 2024
ActiveNeRF : Ran Y et al., “ActiveNeRF : Apprendre où voir avec une estimation de l’incertitude”, ECCV 2022
NeU-NBV : Jin L et al., “NeU-NBV : Planification de la prochaine meilleure vue utilisant l’estimation de l’incertitude dans le rendu neuronal basé sur l’image”, IROS 2023
FIT-SLAM : Saravanan S et al., “FIT-SLAM : SLAM actif basé sur l’estimation de la traversabilité et des informations de Fisher”, ICRA 2024
MatrixCity : Li Z et al., “MatrixCity : un ensemble de données urbaines à grande échelle pour la synthèse de nouvelles vues au niveau de la ville et la reconstruction urbaine”, ICCV 2023
FCMI : Charrow B et al., “Planification théorique de l’information avec optimisation de trajectoire pour une cartographie 3D dense”, ICRA 2020
Contrôle de sécurité CBF : Ames A et al., « Fonctions de barrière de contrôle : théorie et applications », ECC 2019---

Notes sur la version du document : Il s’agit de la première version du plan Paper C (v1_20260515). Une fois les expériences suivantes terminées, il sera mis à jour en « v2_year mois jour.md », et après avoir reçu les commentaires de révision, il sera mis à jour en « v3_year mois jour.md ».