Aktive Wahrnehmung aus informationstheoretischer Sicht: Fisher Information und Cramér-Rao-Untergrenze
UAV-Wahrnehmungsplanungsreihe · Teil X Schwerpunkt: Grundlagen der Informationstheorie, Active Sensing Framework, Berechnung von Fisher-Informationen und Anwendung in SLAM
1. Was ist aktive Wahrnehmung?
Die traditionelle Wahrnehmung ist passiv: Der Roboter empfängt Sensordaten und aktualisiert ein Modell der Umgebung.
Aktive Wahrnehmung geht noch einen Schritt weiter: Der Roboter wählt aktiv, „wo er suchen soll“**, um den Wert der Aufgabe zu maximieren.
被动感知:
传感器 → 数据 → 地图更新(机器人不动)
主动感知:
当前地图 → 信息价值评估 → 最优下一视角选择 → 移动 → 传感器 → 地图更新
↑
核心问题:如何量化"信息价值"?
Für UAVs ist die aktive Erfassung besonders wichtig:
- Energiebeschränkung: Fliegen verbraucht Energie und kann nicht zufällig fliegen.
- Weites Sichtfeld: Bei der Bewegung in der Luft ändert sich das Sichtfeld drastisch und es ist entscheidend, den optimalen Weg zu wählen.
- Dreidimensionaler Raum: Gebäude, Berge und Bäume müssen für eine vollständige Modellierung aus mehreren Blickwinkeln betrachtet werden.
2. Mathematische Grundlagen der Informationstheorie
2.1 Fisher-Informationen
Bei einem Wahrscheinlichkeitsmodell
Intuitives Verständnis:
- Wenn sich
in der Nähe von sehr steil ändert, bedeutet das, dass die Daten sehr empfindlich auf reagieren → Fisher-Informationen groß - Wenn sich
um herum flach ändert, sind die Daten nicht empfindlich gegenüber → Fisher Information klein
Skalare vs. Matrixform:- Skalar:
- Matrix: Fisher Information Matrix (FIM)
(mehrdimensionale Parameter)
FIM ist der Riemannsche metrische Tensor im Parameterraum, der bestimmt, wie genau Sie Parameter schätzen können.
2.2 Cramér-Rao-Untergrenze (CRLB)
Die Cramér-Rao-Untergrenze ist eine Kernanwendung von Fisher Information: gibt eine optimale Untergrenze für die Varianz eines erwartungstreuen Schätzers an.
Physikalische Bedeutung: Unabhängig davon, welche Schätzmethode Sie verwenden (solange sie erwartungstreu ist), darf die Schätzgenauigkeit
Bedeutung in SLAM:
- Die untere Grenze der Kovarianz der Roboterpose
wird durch FIM bestimmt - Je kleiner der Kehrwert von FIM → desto genauer ist die Schätzung
2.3 Gegenseitige Information
Gegenseitige Information misst die statistische Abhängigkeit zwischen zwei Zufallsvariablen:
Bedeutung in aktiver Wahrnehmung:
= zukünftige Sensorbeobachtungen = der unsichere Zustand der aktuellen Karte
Maximierung von
3. Aktives Sensor-Framework
3.1 Kernthema: Next-Best-View (NBV)
Das Kernproblem der aktiven Erfassung ist die NBV-Planung: Wo sollten wir uns angesichts des aktuell beobachteten Gebiets als nächstes bewegen, um die Unsicherheit am effektivsten zu reduzieren?
Mathematische Form des NBV-Problems:
Das heißt: Wählen Sie die Aktion
3.2 Drei Hauptkomponenten des aktiven Sensorsystems
Informationstheoretischer Rahmen für aktive Wahrnehmung schlägt drei Komponenten eines aktiven Wahrnehmungssystems vor:
┌─────────────────────────────────────────────────────────┐
│ Active Perception System │
│ │
│ Component 1: 状态估计 & 地图表示 │
│ (State Estimation & Map Representation) │
│ → 当前已观测区域的完整表示(几何 + 语义) │
│ │
│ Component 2: 未来观测合成 │
│ (Generative Model of Future Observations) │
│ → 给定候选动作,生成未来会看到的图像/传感器数据 │
│ │
│ Component 3: 信息驱动的规划 │
│ (Information-Driven Planning) │
│ → 在候选轨迹上计算互信息,选择最优 │
└─────────────────────────────────────────────────────────┘
**Warum benötigen Sie Komponente 2 (generiertes Modell)? **
- Man kann nicht wirklich rausfliegen und jeden Ort ausprobieren (zu teuer)
- Sie benötigen ein Modell, um sich vorzustellen, was Sie sehen würden, wenn Sie zu jedem Kandidatenstandort fliegen würden
- NeRF/3DGS sind perfekte generative Modelle (in Ihrem Blog wurde bereits darüber geschrieben!)
4. Anwendung von Fisher-Informationen in SLAM
4.1 FIM im SLAM
Beim visuellen SLAM muss der Roboter gleichzeitig Folgendes schätzen:
- Pose
(wo ist die Kamera) - Kartenpunkt
(wo ist der 3D-Punkt im Raum)
Beobachtungsmodell:
ist die Projektionsfunktion (3D → 2D-Bildkoordinaten) ist das MessrauschenInformationen zu beobachteten Fischern:
Wichtige Erkenntnisse:
- Bei der Beobachtung desselben 3D-Punkts ergeben unterschiedliche Perspektiven unterschiedliche Fisher-Informationen
- Je tiefer die Beobachtungstiefe (je weiter entfernt), desto geringer ist die Informationsmenge
- Je größer die Beobachtungsbasislinie (je größer die Änderung des Blickwinkels), desto größer ist die Informationsmenge
**Deshalb müssen UAVs ihre Perspektive aktiv wählen! **
4.2 Interpretation klassischer Arbeiten
FIT-SLAM (arXiv, Januar 2024)
Artikel: FIT-SLAM – Fisher Information and Traversability Estimation-based Active SLAM für die Erkundung in 3D-Umgebungen Autor: Suchetan Saravanan, Corentin Chauffaut, Caroline Chanel, Damien Vivet Quelle: arXiv:2401.09322, Januar 2024
Kernbeitrag:
- Fisher-Informationen explizit in die Zielfunktion von Active SLAM einführen
- Berücksichtigen Sie auch die Passierbarkeit – nicht nur „klar sehen“, sondern auch „fliegen“
- Auf 3D-Umgebung (nicht planar) ausgerichtet, geeignet für UAV-Erkundung in komplexen Stadtschluchten
Hinweis: Dieses Papier wurde auf arXiv veröffentlicht (es wurde bei IEEE ICARA 2024 eingereicht). Auf der Spitzenkonferenz konnte kein eindeutiger Veröffentlichungsnachweis gefunden werden. Bei der Zitierung ist auf die arXiv-Version zu achten.
---#### Active View Planning für Visual SLAM: Continuous Information Modeling (arXiv, 2022/2023)
Papier: Aktive Ansichtsplanung für visuelles SLAM in Außenumgebungen basierend auf kontinuierlicher Informationsmodellierung Autor: Zhihao Wang, Haoyao Chen, Shiwu Zhang, Yunjiang Lou Quelle: arXiv:2211.xxxxx, 2022
Kernbeitrag:
- Vorgeschlagene kontinuierliche Informationsmodellierung als Ersatz für diskrete Informationsgitter
- Optimieren Sie die nächste Ansicht auf einem kontinuierlichen Raum und nicht auf einem diskreten Satz von Kandidatenpunkten
- Modellieren Sie räumliche Unsicherheit mithilfe des Gaußschen Prozesses (GP)
Wichtige Erkenntnisse:
Herkömmliche Methoden diskretisieren den Raum in Kandidatenpunkte → Der Informationsgewinn wird nur für diese begrenzte Menge von Punkten bewertet
Kontinuierliche Methode: Verwenden Sie GP, um „die Informationsmenge an jeder Position“ darzustellen, und optimieren Sie dann direkt im kontinuierlichen Raum
Vorteile gegenüber UAV:
- Der Bewegungsraum des UAV ist kontinuierlich und sollte nicht zur Diskretisierung gezwungen werden
- Möglichkeit zur Optimierung kompletter 6-DoF-Trajektorien statt nur einzelner Wegpunktauswahlen
5. Berechnung des Informationsgewinns für die aktive Erfassung
5.1 Informationsgewinn basierend auf Fisher-Informationen
Informationsgewinn = FIM-Änderung vor und nach der Aktion:
\hat{I}(X; Y) = \frac{1}{N} \sum_{i=1}^N \log \frac{p(x_i|y_i)}{p(x_i)}