Perception active du point de vue de la théorie de l’information : Fisher Information et limite inférieure de Cramér-Rao

Série de planification de la perception des drones · Partie X Focus : Bases de la théorie de l’information, cadre de détection active, calcul de l’information de Fisher et application en SLAM

1. Qu’est-ce que la perception active ?

La perception traditionnelle est passive : le robot reçoit les données des capteurs et met à jour un modèle de l’environnement.

La perception active va encore plus loin : le robot choisit activement « où chercher » pour maximiser la valeur de la tâche.

被动感知：
传感器 → 数据 → 地图更新（机器人不动）

主动感知：
当前地图 → 信息价值评估 → 最优下一视角选择 → 移动 → 传感器 → 地图更新
                ↑
           核心问题：如何量化"信息价值"？

Pour les drones, la détection active est particulièrement critique :

Contrainte énergétique : Voler consomme de l’énergie et ne peut pas voler de manière aléatoire.
Large champ de vision : Lorsque vous vous déplacez dans les airs, le champ de vision change radicalement et il est crucial de choisir la trajectoire optimale.
Espace tridimensionnel : les bâtiments, les montagnes et les arbres doivent tous être observés sous plusieurs angles pour une modélisation complète.

2. Fondement mathématique de la théorie de l’information

2.1 Informations sur les pêcheurs

Étant donné un modèle probabiliste , où est le paramètre à estimer, Fisher Information mesure la quantité d’informations sur portées par les données d’observation :

Compréhension intuitive :

Si change très fortement près de , cela signifie que les données sont très sensibles à → Fisher Information large
Si change à plat autour de , les données ne sont pas sensibles à → Fisher Information small

Forme scalaire ou matricielle :- Scalaire : (paramètre unidimensionnel)

Matrice : Fisher Information Matrix (FIM) (paramètres multidimensionnels)

FIM est le tenseur métrique riemannien dans l’espace des paramètres, qui détermine avec quelle précision vous pouvez estimer les paramètres.

2.2 Borne inférieure de Cramér-Rao (CRLB)

La limite inférieure de Cramér-Rao est une application essentielle de Fisher Information : donne une limite inférieure optimale sur la variance d’un estimateur sans biais.

Signification physique : Quelle que soit la méthode d’estimation que vous utilisez (tant qu’elle est impartiale), la précision de l’estimation ne peut pas dépasser 1 .

Signification en SLAM :

La borne inférieure de la covariance de la pose du robot est déterminée par FIM
Plus l’inverse de FIM est petit → plus l’estimation est précise

2.3 Informations mutuelles

L’information mutuelle mesure la dépendance statistique entre deux variables aléatoires :

Signification en perception active :

= futures observations des capteurs
= l’état incertain de la carte actuelle

Maximiser = choisir la perspective où les observations futures réduiront le mieux l’incertitude de la carte actuelle.Il s’agit de la définition de la théorie de l’information du « Gain d’information » dans la perception active.

3. Cadre de détection active

3.1 Problème principal : Next-Best-View (NBV)

Le problème central de la détection active est la planification NBV : étant donné la zone actuellement observée, où devrions-nous aller ensuite pour réduire le plus efficacement l’incertitude ?

Forme mathématique du problème NBV :

Autrement dit : choisissez l’action telle que le déterminant du FIM (une mesure scalaire de l’incertitude globale) après l’exécution soit maximisé.

3.2 Trois composants majeurs du système de détection active

Cadre de perception active de la théorie de l’information propose trois composants d’un système de perception active :

┌─────────────────────────────────────────────────────────┐
│                   Active Perception System              │
│                                                         │
│  Component 1: 状态估计 & 地图表示                        │
│  (State Estimation & Map Representation)               │
│  → 当前已观测区域的完整表示（几何 + 语义）               │
│                                                         │
│  Component 2: 未来观测合成                               │
│  (Generative Model of Future Observations)              │
│  → 给定候选动作，生成未来会看到的图像/传感器数据         │
│                                                         │
│  Component 3: 信息驱动的规划                              │
│  (Information-Driven Planning)                          │
│  → 在候选轨迹上计算互信息，选择最优                     │
└─────────────────────────────────────────────────────────┘

**Pourquoi avez-vous besoin du composant 2 (modèle généré) ? **

Vous ne pouvez pas vraiment prendre l’avion et essayer tous les endroits (trop cher)
Vous avez besoin d’un modèle pour “imaginer” ce que vous verriez en volant vers chaque emplacement candidat
NeRF/3DGS sont des modèles génératifs parfaits (déjà écrit à ce sujet dans votre blog !)

4. Application des informations sur les pêcheurs dans SLAM

4.1 FIM en SLAM

En SLAM visuel, le robot doit estimer simultanément :

Pose (où est la caméra)
Map Point (où est le point 3D dans l’espace)

Modèle d’observation :

est la fonction de projection (coordonnées de l’image 3D → 2D)
est le bruit de mesureInformations sur les pêcheurs observés :

Informations clés :

En observant le même point 3D, différentes perspectives produisent différentes informations de pêcheur
Plus la profondeur d’observation est profonde (plus on s’éloigne), plus la quantité d’informations est faible
Plus la ligne de base d’observation est grande (plus le changement d’angle de vue est important), plus la quantité d’informations est grande

**C’est pourquoi les drones doivent choisir activement leur perspective ! **

4.2 Interprétation des articles classiques

FIT-SLAM (arXiv, janvier 2024)

Article : FIT-SLAM — SLAM actif basé sur les informations de Fisher et l’estimation de la traversabilité pour l’exploration dans les environnements 3D Auteur : Suchetan Saravanan, Corentin Chauffaut, Caroline Chanel, Damien Vivet Source : arXiv :2401.09322, janvier 2024

Contribution de base :

Introduire explicitement Fisher Information dans la fonction objectif de Active SLAM
Pensez également à la Traversabilité : non seulement “voir clairement”, mais aussi “voler”.
Ciblé sur environnement 3D (non planaire), adapté à l’exploration de drones dans des canyons urbains complexes

Remarque : Cet article a été publié sur arXiv (il a été soumis à l’IEEE ICARA 2024). Aucun enregistrement clair de publication n’a été trouvé lors de la conférence suprême. La version arXiv doit être notée lors de la citation.

---#### Planification Active View pour Visual SLAM : modélisation continue de l’information (arXiv, 2022/2023)

Article : Planification Active View pour le SLAM visuel dans les environnements extérieurs basée sur la modélisation continue de l’information Auteur : Zhihao Wang, Haoyao Chen, Shiwu Zhang, Yunjiang Lou Source : arXiv :2211.xxxxx, 2022

Contribution de base :

Proposition de modélisation continue de l’information pour remplacer les grilles d’information discrètes
Optimiser la vue suivante sur un espace continu plutôt que sur un ensemble discret de points candidats
Modéliser l’incertitude spatiale en utilisant le Processus Gaussien (GP)

Informations clés :

Les méthodes traditionnelles discrétisent l’espace en points candidats → le gain d’information n’est évalué que sur cet ensemble limité de points

Méthode continue : utilisez GP pour représenter “la quantité d’informations à n’importe quelle position”, puis optimisez directement dans l’espace continu

é é à é

Avantages par rapport aux drones :

L’espace de mouvement du drone est continu et ne doit pas être forcé à se discrétiser
Possibilité d’optimiser des trajectoires complètes 6-DoF plutôt que de simples sélections de waypoints discrets

5. Calcul du gain d’informations pour la détection active

5.1 Gain d’informations basé sur les informations des pêcheurs

Gain d’information = changement FIM avant et après l’action :

You can't use 'macro parameter character #' in math mode\Delta I(a) = \det I(\theta_{après}) - \det I(\theta_{avant}) $$Mais le calcul réel ne nécessite pas de véritable reconstruction, mais simplement : 1. Prédire les observations sous un nouvel angle 2. Calculer la FIM des observations nouvellement ajoutées 3. Utilisez le **Complément Schur** pour mettre à jour efficacement le FIM total ### 5.2 Estimation Monte Carlo de l'information mutuelle Les informations mutuelles $I(X; Y)$ ne peuvent généralement pas être calculées de manière analytique et nécessitent l'utilisation de méthodes de Monte Carlo :

\hat{I}(X; Y) = \frac{1}{N} \sum_{i=1}^N \log \frac{p(x_i|y_i)}{p(x_i)}