Perception active du point de vue de la théorie de l’information : Fisher Information et limite inférieure de Cramér-Rao
Série de planification de la perception des drones · Partie X Focus : Bases de la théorie de l’information, cadre de détection active, calcul de l’information de Fisher et application en SLAM
1. Qu’est-ce que la perception active ?
La perception traditionnelle est passive : le robot reçoit les données des capteurs et met à jour un modèle de l’environnement.
La perception active va encore plus loin : le robot choisit activement « où chercher » pour maximiser la valeur de la tâche.
被动感知:
传感器 → 数据 → 地图更新(机器人不动)
主动感知:
当前地图 → 信息价值评估 → 最优下一视角选择 → 移动 → 传感器 → 地图更新
↑
核心问题:如何量化"信息价值"?
Pour les drones, la détection active est particulièrement critique :
- Contrainte énergétique : Voler consomme de l’énergie et ne peut pas voler de manière aléatoire.
- Large champ de vision : Lorsque vous vous déplacez dans les airs, le champ de vision change radicalement et il est crucial de choisir la trajectoire optimale.
- Espace tridimensionnel : les bâtiments, les montagnes et les arbres doivent tous être observés sous plusieurs angles pour une modélisation complète.
2. Fondement mathématique de la théorie de l’information
2.1 Informations sur les pêcheurs
Étant donné un modèle probabiliste
Compréhension intuitive :
- Si
change très fortement près de , cela signifie que les données sont très sensibles à → Fisher Information large - Si
change à plat autour de , les données ne sont pas sensibles à → Fisher Information small
Forme scalaire ou matricielle :- Scalaire :
- Matrice : Fisher Information Matrix (FIM)
(paramètres multidimensionnels)
FIM est le tenseur métrique riemannien dans l’espace des paramètres, qui détermine avec quelle précision vous pouvez estimer les paramètres.
2.2 Borne inférieure de Cramér-Rao (CRLB)
La limite inférieure de Cramér-Rao est une application essentielle de Fisher Information : donne une limite inférieure optimale sur la variance d’un estimateur sans biais.
Signification physique : Quelle que soit la méthode d’estimation que vous utilisez (tant qu’elle est impartiale), la précision de l’estimation ne peut pas dépasser 1
Signification en SLAM :
- La borne inférieure de la covariance de la pose du robot
est déterminée par FIM - Plus l’inverse de FIM est petit → plus l’estimation est précise
2.3 Informations mutuelles
L’information mutuelle mesure la dépendance statistique entre deux variables aléatoires :
Signification en perception active :
= futures observations des capteurs = l’état incertain de la carte actuelle
Maximiser
3. Cadre de détection active
3.1 Problème principal : Next-Best-View (NBV)
Le problème central de la détection active est la planification NBV : étant donné la zone actuellement observée, où devrions-nous aller ensuite pour réduire le plus efficacement l’incertitude ?
Forme mathématique du problème NBV :
Autrement dit : choisissez l’action
3.2 Trois composants majeurs du système de détection active
Cadre de perception active de la théorie de l’information propose trois composants d’un système de perception active :
┌─────────────────────────────────────────────────────────┐
│ Active Perception System │
│ │
│ Component 1: 状态估计 & 地图表示 │
│ (State Estimation & Map Representation) │
│ → 当前已观测区域的完整表示(几何 + 语义) │
│ │
│ Component 2: 未来观测合成 │
│ (Generative Model of Future Observations) │
│ → 给定候选动作,生成未来会看到的图像/传感器数据 │
│ │
│ Component 3: 信息驱动的规划 │
│ (Information-Driven Planning) │
│ → 在候选轨迹上计算互信息,选择最优 │
└─────────────────────────────────────────────────────────┘
**Pourquoi avez-vous besoin du composant 2 (modèle généré) ? **
- Vous ne pouvez pas vraiment prendre l’avion et essayer tous les endroits (trop cher)
- Vous avez besoin d’un modèle pour “imaginer” ce que vous verriez en volant vers chaque emplacement candidat
- NeRF/3DGS sont des modèles génératifs parfaits (déjà écrit à ce sujet dans votre blog !)
4. Application des informations sur les pêcheurs dans SLAM
4.1 FIM en SLAM
En SLAM visuel, le robot doit estimer simultanément :
- Pose
(où est la caméra) - Map Point
(où est le point 3D dans l’espace)
Modèle d’observation :
est la fonction de projection (coordonnées de l’image 3D → 2D) est le bruit de mesureInformations sur les pêcheurs observés :
Informations clés :
- En observant le même point 3D, différentes perspectives produisent différentes informations de pêcheur
- Plus la profondeur d’observation est profonde (plus on s’éloigne), plus la quantité d’informations est faible
- Plus la ligne de base d’observation est grande (plus le changement d’angle de vue est important), plus la quantité d’informations est grande
**C’est pourquoi les drones doivent choisir activement leur perspective ! **
4.2 Interprétation des articles classiques
FIT-SLAM (arXiv, janvier 2024)
Article : FIT-SLAM — SLAM actif basé sur les informations de Fisher et l’estimation de la traversabilité pour l’exploration dans les environnements 3D Auteur : Suchetan Saravanan, Corentin Chauffaut, Caroline Chanel, Damien Vivet Source : arXiv :2401.09322, janvier 2024
Contribution de base :
- Introduire explicitement Fisher Information dans la fonction objectif de Active SLAM
- Pensez également à la Traversabilité : non seulement “voir clairement”, mais aussi “voler”.
- Ciblé sur environnement 3D (non planaire), adapté à l’exploration de drones dans des canyons urbains complexes
Remarque : Cet article a été publié sur arXiv (il a été soumis à l’IEEE ICARA 2024). Aucun enregistrement clair de publication n’a été trouvé lors de la conférence suprême. La version arXiv doit être notée lors de la citation.
---#### Planification Active View pour Visual SLAM : modélisation continue de l’information (arXiv, 2022/2023)
Article : Planification Active View pour le SLAM visuel dans les environnements extérieurs basée sur la modélisation continue de l’information Auteur : Zhihao Wang, Haoyao Chen, Shiwu Zhang, Yunjiang Lou Source : arXiv :2211.xxxxx, 2022
Contribution de base :
- Proposition de modélisation continue de l’information pour remplacer les grilles d’information discrètes
- Optimiser la vue suivante sur un espace continu plutôt que sur un ensemble discret de points candidats
- Modéliser l’incertitude spatiale en utilisant le Processus Gaussien (GP)
Informations clés :
Les méthodes traditionnelles discrétisent l’espace en points candidats → le gain d’information n’est évalué que sur cet ensemble limité de points
Méthode continue : utilisez GP pour représenter “la quantité d’informations à n’importe quelle position”, puis optimisez directement dans l’espace continu
Avantages par rapport aux drones :
- L’espace de mouvement du drone est continu et ne doit pas être forcé à se discrétiser
- Possibilité d’optimiser des trajectoires complètes 6-DoF plutôt que de simples sélections de waypoints discrets
5. Calcul du gain d’informations pour la détection active
5.1 Gain d’informations basé sur les informations des pêcheurs
Gain d’information = changement FIM avant et après l’action :
\hat{I}(X; Y) = \frac{1}{N} \sum_{i=1}^N \log \frac{p(x_i|y_i)}{p(x_i)}