Städtische UAV-Routenplanung in geringer Höhe: multimodale Simulationsdatensynthese

Richtung 5: Multimodale Simulationsdatensynthese Erweitertes Kapitel · Technische Blog-Serie Teil 5

1. Hintergrund: Das doppelte Dilemma von Datenknappheit und Sicherheitsbeschränkungen

Das Training städtischer UAV-Planungsalgorithmen in geringer Höhe (insbesondere Planer, die auf Deep Reinforcement Learning basieren) steht vor dem doppelten Dilemma von Datenknappheit und Sicherheitsbeschränkungen:

Datenknappheit: Die Kosten für die Erfassung realer Flugdaten sind hoch – es erfordert viel Personalkontrolle und Standortsicherheit, und die Eckfälle komplexer städtischer Szenen (extremes Wetter, plötzliche Hindernisse, Signalstörungen) sind mit dem System schwer abzudecken. Öffentliche Datensätze (wie MAVNet, UZH-FPV) sind in ihrem Umfang begrenzt und es ist schwierig, das Training von End-to-End-Deep-Learning-Modellen zu unterstützen.

Sicherheitseinschränkungen: Der Reinforcement-Learning-Planer erzeugt in den frühen Phasen des Trainings viel „exploratives“ Verhalten. Direktes Training an realen UAVs kann zu Unfällen wie Kollisionen und Kontrollverlust führen. Die Simulationsumgebung bietet einen Trainingsort ohne Risiko, aber die Lücke zwischen Simulation und Realität (Sim2Real Gap) macht die in der Simulation trainierten Strategien am realen UAV völlig wirkungslos.

Die multimodale Simulationsdatensynthese entstand, wie es die Zeit erforderte – durch den Aufbau einer hochpräzisen Multisensor-Simulationsumgebung, die systematische Generierung umfangreicher und vielfältiger Trainingsdaten und den Einsatz von Domänenrandomisierung und Sim2Real-Migrationstechnologie, um die Lücke zwischen Simulation und Realität zu schließen.

2. Multimodale Sensorsimulation

2.1 Warum Multimodalität benötigt wird

Es gibt inhärente Leistungsgrenzen für einen einzelnen Sensor. Der sichere Betrieb städtischer UAVs in geringer Höhe erfordert redundante Sensorfunktionen:

Sensoren	Kernkompetenzen	Wichtige Einschränkungen	Komplementaritäten
RGB-Kamera	Texturerkennung, semantisches Verständnis	Nachts Ausfall, keine Tiefeninformation	Bereitstellung semantischer Segmentierungsfunktionen
LiDAR	Präzise Entfernungsmessung, 3D-Kartierung	Spärlich, hohe Kosten	Stellen Sie eine genaue Geometrie bereit
Millimeterwellenradar	Allwetter, direkte Geschwindigkeitsmessung	Laut, niedrige Auflösung	Bereitstellung der Erkennung bewegter Ziele
Wärmebildaufnahme	Fußgängererkennung, Nachtsicht	Mehrdeutigkeit der Temperaturdifferenz, niedrige Auflösung	Bereitstellung der Erkennung gefährdeter Verkehrsteilnehmer
Ultraschall	Hindernisvermeidung im Nahbereich	Geringe Reichweite, störanfällig	Sorgen Sie für eine genaue Nahbereichswahrnehmung

2.2 Prinzip der Sensorsimulation

RGB-Kamerasimulation Basierend auf der Physically-based Rendering (PBR)-Pipeline:

Dabei ist die bidirektionale Reflexionsverteilungsfunktion (BRDF), die einfallende Bestrahlungsstärke und die PBR-Pipeline erzeugt fotorealistische Bilder durch Simulation der physikalischen Wechselwirkung von Licht und Szenenmaterialien. Das virtuelle Geometriesystem Nanite und das globale Beleuchtungssystem Lumen von Unreal Engine 5 sind derzeit die Echtzeit-Rendering-Lösungen, die der physischen Realität am nächsten kommen.

LiDAR-Simulation basiert normalerweise auf Raycasting: Aussenden von Strahlen von der LiDAR-Position entlang jeder Scanlinienrichtung, Erkennen des Schnittpunkts mit der Szenengeometrie und Zurückgeben der Entfernung und Reflexionsintensität:

Wobei die szenenbesetzte Geometrie ist. High-End-LiDAR-Simulationen (wie NVIDIA FLIPS) können auch physikalische Effekte wie Multi-Echo und Waveform Broadening simulieren.

Millimeterwellen-Radarsimulation basiert auf dem Ausbreitungsmodell elektromagnetischer Wellen, um den Mehrwegeeffekt (Multipath), die Schattendämpfung (Shadowing) und die Bodenreflexion (Ground Bounce) des Signals zu simulieren:

You can't use 'macro parameter character #' in math modeP_r = P_t \cdot \frac{G_t G_r \lambda^2}{(4\pi)^3 R^4} \cdot \sigma \cdot L_{\text{atm}} \cdot L_{\text{multipath}} $$Dabei ist $P_r$ die empfangene Leistung, $R$ die Zielentfernung, $\sigma$ der Radarquerschnitt (RCS) und $L_{\text{Multipath}}$ der Multipath-Fading-Faktor. ### 2.3 Multimodale räumlich-zeitliche Synchronisation Die größte technische Herausforderung für die multimodale Datensynthese ist die räumlich-zeitliche Synchronisierung – alle Sensordaten müssen in einem einheitlichen Zeit- und Koordinatensystem ausgerichtet werden: - **Hardware-Synchronisation**: Jeder Sensor nutzt denselben Taktauslöser (z. B. GPS-PPS) und der Zeitstempelfehler beträgt $< 1\text{ms}$ - **Software-Zeitstempelausrichtung**: Spätere Zeitausrichtung basierend auf dem Sensorverzögerungsmodell (Kamera-Belichtungsverzögerung, LiDAR-Scanzyklus) - **Räumliche Ausrichtung**: Kalibrieren Sie die externen Parameter jedes Sensors ($\mathbf{T}_{\text{Kamera}}^{\text{Körper}}$, $\mathbf{T}_{\text{lidar}}^{\text{Körper}}$ usw.) über die Kalibrierungsplatine oder das CAD-Modell und vereinheitlichen Sie die Daten mit dem luftgestützten Koordinatensystem --- ## 3. Vergleich und Auswahl von Simulationsplattformen ### 3.1 Mainstream-Plattform Hengping| Plattform | Rendering-Engine | Multimodale Unterstützung | Physikalische Simulation | Open Source | UAV-Spezialisierung | Anwendbare Szenarien | |------|----------|-----------|----------|------|----------|----------| | **AirSim** | Unreal Engine | RGB-D / LiDAR / IMU | PX4 SITL | ✅ | ✅ Ausgezeichnet | Luftwegplanung | | **Pavillon** | Ogre3D | Kamera / LiDAR / IMU | ODE/Bullet | ✅ | ✅ Reich | Universelle Robotersimulation | | **Fluchtstute** | Einheit | Kamera / LiDAR / Ereignisse | - | ✅ | ✅ Ausgezeichnet | UAV-Hochgeschwindigkeitsflug | | **Isaac Sim** | Omniversum | Vollständig modal | PhysX | Teilweise | Allgemein | Industrielle Simulation | | **SORDAMS** | Selbstentwickelt | Kamera / LiDAR | Selbstentwickelt | ❌ | ✅ | UAV-Simulation auf Militärniveau | | **CAVS** | Selbstrecherchiert | Vollmodus | Selbstrecherchiert | ✅ | ✅ | UTM-Forschung in geringer Höhe | | **NeuroSIM** | Neuronales Rendering | Kamera (NeRF) | - | In Forschung | Explorativ | Training der neuronalen Wahrnehmung | ### 3.2 Detaillierte AirSim-Analyse Microsoft AirSim ist derzeit eine der am weitesten verbreiteten UAV-Simulationsplattformen. Es basiert auf der Unreal Engine und bietet fotorealistische Simulationsfunktionen für Stadtszenen. **Kernarchitektur**: - **AirSim-Plugin**: Ein Plug-in, das in der Unreal Engine läuft und Sensorsimulation, Flugphysik und API-Schnittstellen verwaltet - **PX4 SITL**: kommuniziert mit AirSim über das MAVLink-Protokoll und unterstützt die vollständige In-the-Loop-Simulation der PX4-Flugsteuerungs-Firmware - **RPC-Kommunikation**: Bietet Python/C++-API zur Unterstützung einer flexiblen Steuerung auf Forschungsebene**Vorteile**: - Fotorealistische Darstellung, die städtische Canyon-Szene ist realistisch - Unterstützt eine Vielzahl von Flugzeugen (MultiRotor, FixedWing, Rover) - Umfangreiche Sensormodelle (Kameraverzerrung, Bewegungsunschärfe, Schärfentiefe) - Dynamische Änderungen von Wetter, Beleuchtung und Zeit **Einschränkungen**: - Hängt von der Unreal Engine ab (große kommerzielle Engine, steile Lernkurve) - Eingeschränkte Linux-Unterstützung (hauptsächlich für Windows) - Die Genauigkeit der physikalischen Simulation ist nicht so gut wie die professioneller Robotersimulatoren ### 3.3 Flightmare: Hochgeschwindigkeits-UAV-Simulation Flightmare, entwickelt von der ETH Zürich, ist für **Hochgeschwindigkeits-UAV-Manöver**-Szenarien optimiert und unterstützt die Simulation einer Beschleunigung von $10\text{m/s}^2+$. Es ist ein ideales Werkzeug für die Aggressivflugforschung. Flightmare-Funktionen: - **Modulare Rendering-Pipeline**: Austauschbare Rendering-Engines (Unity/OpenGL) zur Unterstützung großer städtischer Umgebungen - **Große Szenenbibliothek**: Voreingestellte verschiedene Szenen wie Städte, Wälder, Lagerhäuser usw. - **Ereigniskamerasimulation**: Unterstützt ereignisbasierte Sensorsimulation (Ereigniskamera), geeignet für Hochgeschwindigkeitsmanöverszenen ### 3.4 Neue Richtungen: Neuronale Simulation **UniSim** (Zhou et al., NeurIPS 2023 / arxiv preprint) schlug zunächst das Konzept der neuronalen Wahrnehmungssimulation vor, bei dem neuronale Strahlungsfelder zur Modellierung statischer Hintergründe + explizite Geometrie zur Modellierung dynamischer Objekte verwendet werden, um eine fotorealistische und kontrollierbare Sensordatengenerierung zu erreichen. Die Kernpipeline von UniSim: 1. Sammeln Sie eine kleine Menge realer Daten (etwa 20 Minuten Fahrvideo). 2. Trainieren Sie das statische NeRF-Hintergrundmodell und das explizite dynamische Objektmodell 3. Passen Sie Kamerabahnen an, fügen Sie Objekte hinzu/löschen Sie sie, ändern Sie das Wetter und generieren Sie neue Szenen in NeRF 4. Das neuronale Rendering gibt RGB-, Tiefen-, Normalvektor- und andere sensorische Daten aus Die mit dieser Methode generierten Simulationsdaten kommen den realen Daten sehr nahe, wodurch die Sim2Real-Lücke erheblich verringert wird. Die Echtzeitleistung stellt jedoch immer noch einen Engpass dar (die aktuelle Generierungsgeschwindigkeit beträgt etwa 0,1 FPS, nicht in Echtzeit). --- ## 4. Domain-Randomisierung und Sim2Real-Migration ### 4.1 Prinzip der Domänen-RandomisierungDie Kernidee der Domain Randomization (DR) besteht darin, eine große Anzahl von Nicht-Schlüsselattributen in der Simulation zu randomisieren, wodurch der Lernalgorithmus gezwungen wird, sich auf das Verständnis der Schlüsselattribute (geometrische Struktur, semantische Informationen) zu konzentrieren und so auf die reale Welt zu verallgemeinern. **Typische Randomisierungsparameter**: | Kategorie | Parameter | Randomisierungsbereich | |------|------|---------| | **Aussehen** | Texturen, Beleuchtung, Wetter | Farb-/Intensitäts-Randomisierung, dynamische Beleuchtung | | **Geometrie** | Objektgröße, Position, Ausrichtung | Zufällige Position von Nicht-Schlüsselobjekten | | **Sensor** | Interne Parameter, Lärm, externe Parameter | Kamerafokus-Offset, LiDAR-Geräuschpegel | | **Dynamik** | Masse, Windstörung, Verzögerung | Parameter $\pm 20\%$ Zufällig | | **Hintergrund** | Szenenkomplexität, Anzahl der Objekte | Zufällige Interferenzobjektdichte | ### 4.2 Online-Domain-Anpassung Das Problem bei reiner DR besteht darin, dass eine übermäßige Randomisierung zu ineffizientem Training führt – die Richtlinie trainiert in einfachen Szenarien gut, lässt jedoch in komplexen Szenarien nach. Die Methode **Online-Anpassung** (Online-Anpassung) aktualisiert die Simulationsparameter während des Simulation-Real-Migrationsprozesses kontinuierlich: **Meta-Sim** (Kar et al., NeurIPS 2019) nutzt Reinforcement Learning, um automatisch die optimale Verteilung der Domänen-Randomisierungsparameter zu erlernen, mit dem Ziel, die Auswertungsleistung bei realen Daten zu maximieren:

\theta^* = \arg\max_\theta \mathbb{E}{\mathbf{s} \sim p\theta} \left[ \text{Performance}(\pi_\theta, \text{Real}) \right]

ä ä

p_{\text{real}} \ approx \alpha \cdot p_{\text{sim}} + (1-\alpha) \cdot p_{\text{real,obs}}

\text{Gebäude} ::= \text{Basis} + \text{Boden}^N + \text{Dach}, \quad N \sim \text{Uniform}(3, 30)

You can't use 'macro parameter character #' in math mode Durch Anpassung der Parameterverteilung (Anzahl der Stockwerke, Dachtyp, Fassadenmaterial) können städtische Gebäudegruppen mit unterschiedlichen Stilen generiert werden. ### 5.2 Bewertung der Asset-Qualität Die Qualität synthetischer Assets wirkt sich direkt auf die Wirksamkeit der Sim2Real-Migration aus. Zu den **Qualitätsbewertungsdimensionen** gehören:| Abmessungen | Bewertungsindikatoren | Methoden | |------|---------|------| | **Geometriegenauigkeit** | RMSE vs. LiDAR Ground Truth | Quantisierung nach Punktwolkenregistrierung | | **Textur-Authentizität** | FID vs. Realbild | Fréchet-Anfangsentfernung | | **Semantische Konsistenz** | Segmentierungsgenauigkeit | SegAcc auf synthetischem Bild | | **Physikalische Plausibilität** | Objektgrößenverteilung | Vergleich mit GT-Statistiken | **SynthCity** (Griffiths & Boehm, 2023) bietet einen groß angelegten synthetischen Datensatz von 9 Arten städtischer Vermögenswerte, einschließlich Punktwolken, Bildern und semantischen Anmerkungen, der als Benchmark für die Qualität simulierter Vermögenswerte verwendet werden kann. --- ## 6. Bewertung der Datenqualität und multimodale Konsistenz ### 6.1 Authentizitätsmessung Die Verteilungslücke (Domänenlücke) zwischen Simulationsdaten und realen Daten bestimmt die Obergrenze des Sim2Real-Migrationseffekts. Zu den quantitativen Bewertungsmethoden gehören: **FID (Fréchet Inception Distance)**: Extrahieren Sie Bildmerkmale über Inception-v3 und berechnen Sie den Fréchet-Abstand zwischen der realen Bildmerkmalsverteilung $\mathcal{N}(\mu_r, \Sigma_r)$ und der simulierten Bildmerkmalsverteilung $\mathcal{N}(\mu_s, \Sigma_s)$:

\text{FID} = |\mu_r - \mu_s|^2 + \text{Tr}\left( \Sigma_r + \Sigma_s - 2\sqrt{\Sigma_r \Sigma_s} \right)

You can't use 'macro parameter character #' in math mode Je niedriger der FID, desto näher kommt das Simulationsbild dem realen Bild. Typisches Ziel: FID $< 30$ (mit bloßem Auge schwer zu unterscheiden). **SSIM/PSNR**: Strukturelle Ähnlichkeit und Spitzen-Signal-Rausch-Verhältnis, pixelweise Bewertung der Bildqualität, geeignet für den Vergleich der Renderqualität derselben Szene. **Wahrnehmungsabstand**: Wahrnehmungsverlust basierend auf der VGG/ResNet-Feature-Ebene, der eher der subjektiven Bewertung des menschlichen Auges entspricht als Indikatoren auf Pixelebene. ### 6.2 Multimodale KonsistenzbeschränkungenMultimodale Simulationsdaten müssen die Einschränkung **kreuzmodaler Konsistenz** erfüllen – das RGB-Bild, die Tiefenkarte und die LiDAR-Punktwolke derselben Szene müssen miteinander konsistent sein, und es darf kein Selbstwiderspruch wie „Die Kamera sieht die Wand, aber der LiDAR trifft nicht auf die Wand“ bestehen. **Konsistenzüberprüfungspipeline**: 1. **Konsistenzprüfung der Geometrie**: Überprüfen Sie für jeden 3D-Punkt, ob seine projizierte Koordinatentiefe im RGB-Bild mit der Tiefenkarte/LiDAR-Messung übereinstimmt (Fehler $< 1\%$) 2. **Semantische Konsistenzprüfung**: Die Ergebnisse der RGB-Segmentierung und der Klassifizierung der LiDAR-Reflexionsintensität sollten konsistent sein (z. B. sollten Metallgeländer in beiden Modalitäten als „harte Hindernisse“ klassifiziert werden). 3. **Zeitliche Konsistenzprüfung**: Optischer Fluss/Punktwolkenbewegung zwischen benachbarten Bildern sollte dem physikalischen Bewegungsmodell entsprechen (Annahme von gleichmäßiger Geschwindigkeit/gleichmäßiger Beschleunigung) Daten, die gegen Konsistenzbeschränkungen verstoßen, führen beim multimodalen Fusionslernen in die Irre und müssen nach der Datengenerierung automatisch erkannt und gefiltert werden. --- ## 7. Planungs-Simulation-Geschlossener Kreislauf: Verstärkungslerntraining ### 7.1 Reinforcement-Learning-Training in der Simulation Reinforcement Learning (RL) bietet ein Lernparadigma für die durchgängige UAV-Planung, ohne dass ein manueller Entwurf von Kostenfunktionen erforderlich ist. Typische RL-Trainingspipeline: 1. **Initialisierung der Simulationsumgebung**: Laden Sie das 3D-Stadtmodell und generieren Sie zufällige Start- und Landepunkte sowie Hinderniskonfigurationen 2. **Strategieinteraktion**: Die UAV-Strategie $\pi_\theta(a_t | s_t)$ interagiert mit der Umgebung in der Simulation und sammelt Flugbahndaten $\{s_t, a_t, r_t, s_{t+1}\}$ 3. **Richtlinienaktualisierung**: Verwenden Sie den PPO- (Proximal Policy Optimization) oder SAC-Algorithmus (Soft Actor-Critic), um Richtlinienparameter zu aktualisieren 4. **Domänen-Randomisierung**: Randomisieren Sie die Szenariokonfiguration in jeder Trainingsrunde, um die Fähigkeiten zur Strategieverallgemeinerung zu verbessern 5. **Sim2Real Transfer**: Setzen Sie die trainierte Strategie auf ein echtes UAV um, was möglicherweise eine kleine Feinabstimmung der realen Daten erfordert (Transfer RL) **Entwurf der wichtigsten Belohnungsfunktionen**:

r_t = r_{\text{Fortschritt}} + r_{\text{Sicherheit}} + r_{\text{Effizienz}} + r_{\text{Komfort}} $$- : Positive Belohnung für den Fortschritt in Richtung des Ziels

bei Kollision: Kollisionsstrafe (große negative Belohnung)
: Zeitstrafe (fördert schnelles Ankommen)
: Beschleunigungsnachteil (unterdrückt scharfe Kurven)

7.2 Simulation zur realen Migrationsstrategie

Auch bei der Domänenrandomisierung können noch simulationsreale Lücken bestehen. Die folgenden Strategien können die Erfolgsraten der Migration verbessern:

Konservativer Einsatz:

Führen Sie zunächst eine Sicherheitsüberprüfung an einem echten UAV bei niedriger Geschwindigkeit und geringer Höhe durch
Erweitern Sie den Flugbereich erst dann schrittweise, wenn die Sicherheit bestätigt ist

Aufgabenrelevante Funktionsausrichtung:

Analysieren Sie die Verteilung der Sensordatenmerkmale (Tiefenstatistik, Kantendichte) realer UAVs
Passen Sie die Simulationsparameter an die Verteilung der Schlüsselmerkmale an

Meta-Lernen:

Verwenden Sie MAML (Model-Agnostic Meta-Learning), um die Strategie so zu trainieren, dass sie sich schnell an eine kleine Menge realer Daten anpasst
Trainieren Sie die Grundrichtlinie in der Simulation und passen Sie sie in der realen Umgebung an an

7.3 Virtuell-realer Closed-Loop-Fall: Aggressiver Flug

Die autonomen UAV-Rennprojekte AlphaPilot (gesponsert von Lockheed Martin) und SUAS Competition demonstrieren einen ausgereiften geschlossenen Kreislauf aus Simulation, Training und Einsatz:1. Verwenden Sie DOMAIN_RANDOMIZE in Flightmare/AirSim, um zufällige Beleuchtung, Windstörungen und Hindernispositionen zu konfigurieren 2. Verwenden Sie PPO, um die End-to-End-Strategie zu trainieren (direkte Ausgabe der Motorgeschwindigkeit). Zu den Belohnungen gehören Rundenzeit, Kollisionsstrafe und Komfort 3. Die Trainingsstrategie erreicht in der Simulation eine Durchquerungsgeschwindigkeit von 4. Stellen Sie es auf einem echten UAV bereit und nutzen Sie die Online-Anpassung, um verbleibende Sim2Real-Lücken auszugleichen 5. Schlüsselkompetenzen: Sicherheitsschild – Durch die Kombination der Ergebnisse der RL-Richtlinie mit der Vermeidung von Notfallhindernissen auf der Grundlage geometrischer Planung ist die Richtlinie nur für die Entscheidungsfindung auf hoher Ebene verantwortlich

8. Zukünftige Richtungen und Grenzerkundung

8.1 Neuronaler Simulator: Lernbare Physik-Engine

Herkömmliche Simulatoren basieren auf manuell entworfenen physikalischen Modellen und können komplexe Wechselwirkungen (Fluid-Struktur-Wechselwirkung, Verformung flexibler Körper) nur schwer erfassen. Learned Physics Engine (Learned Physics Engine) lernt physikalische Gesetze aus Daten über neuronale Netze:

Graph Network Simulator (GNS) (Sanchez-Gonzalez et al., ICML 2020) verwendet grafische neuronale Netze, um Partikelsysteminteraktionen zu modellieren und kann die Evolutionsregeln von Fluid-, Starrkörper- und Mehrkörpersystemen lernen. Wenn GNS auf die aerodynamische Modellierung erweitert wird, ist es möglich, eine datengesteuerte UAV-Flugdynamiksimulation zu erreichen.

8.2 Daten im Internetmaßstab + generative KI

Large Language Model (LLM) und Diffusion Model eröffnen neue Möglichkeiten für die Generierung von Simulationsdaten:

LLM generiert Szenenbeschreibung: Eingabe „Beijing CBD Abendgipfelkreuzung, 5 Autos, 10 Fußgänger“, GPT-4V kann detaillierte Szenenkonfiguration generieren (Standort, Geschwindigkeit, Verhaltensmuster)
Diffusionsmodell-Generierungstextur: Verwenden Sie ControlNet/Stable Diffusion, um automatisch realistische Texturen basierend auf architektonischen Strichzeichnungen zu generieren und so die manuelle Modellierung zu reduzieren
Klonen von NeRF-Szenen: Nehmen Sie mit Ihrem Mobiltelefon ein 5-minütiges Stadtvideo auf und rekonstruieren Sie es automatisch in eine navigierbare NeRF-Szene, die direkt als Simulationsumgebung verwendet werden kann

8.3 Föderierte Simulation: Verteilte kollaborative ZuordnungIn Zukunft könnten urbane UAV-Cluster ein verbundenes Simulationsnetzwerk bilden: Jedes UAV sammelt Flugdaten und aktualisiert einen gemeinsamen digitalen Zwilling der Stadt, und andere UAVs laden den neuesten Zwilling herunter und trainieren in der aktualisierten Simulationsumgebung. Dadurch wird nicht nur der Datenschutz geschützt (das Originalbild verlässt den lokalen Bereich nicht), sondern auch eine verteilte Ansammlung von Wissen erreicht werden.

9. Zusammenfassung

Die multimodale Simulationsdatensynthese ist die wichtigste technische Grundlage für den Übergang städtischer UAV-Planungsalgorithmen in geringer Höhe von der Forschung zur Umsetzung. Durch eine hochpräzise Sensorsimulation (RGB, LiDAR, Millimeterwelle, Wärmebild), die programmatische Generierung verschiedener Szenenressourcen und eine strenge Domänen-Randomisierungsstrategie können umfangreiche Trainingsdatensätze systematisch in der Simulationsumgebung erstellt werden.

Die zentrale Herausforderung der Sim2Real-Migration ist die Wahrnehmungslücke und die dynamische Lücke. Die Wahrnehmungslücke kann durch neuronales Rendering (UniSim) und Wahrnehmungskonsistenzbewertung geschlossen werden; Die dynamische Lücke kann durch Online-Anpassung und Meta-Lernen ausgeglichen werden.

Mit zunehmender Reife neuronaler Simulatoren, erlernbarer Physik-Engines und generativer KI-Technologien wird die Simulationsdatensynthese künftig automatisierter, präziser und kostengünstiger sein. Die Vision von Simulation als Grundwahrheit wird allmählich möglich.

Referenzen

Shah, S., Dey, D., Lovett, C. & Kapoor, A. (2018). AirSim: Hochpräzise visuelle und physikalische Simulation für autonome Fahrzeuge. Feld- und Servicerobotik. https://doi.org/10.1007/978-3-319-67361-5_40
Zhou, Y., et al. (2023). UniSim: Ein neuronaler Closed-Loop-Sensorsimulator. CVPR (oder arxiv:2308.01812, Veranstaltungsort muss noch bestätigt werden). https://doi.org/10.1109/CVPR52729.2023.00571- Kar, A., et al. (2019). Meta-Sim: Lernen, synthetische Datensätze zu generieren. ICCV. https://doi.org/10.1109/ICCV.2019.00393
Sanchez-Gonzalez, A., et al. (2020). Lernen, komplexe Physik mit Graphennetzwerken zu simulieren. ICML. https://doi.org/10.5555/3524938.3525750
Zhang, J., et al. (2021). SimBot: Ermöglichung autonomer Roboter mit Vision-Sprachmodellen über Robotersimulatoren. CoRL.
Du, Y., et al. (2023). Lernen von Richtlinien aus Simulation mit kontradiktorischer Domänenrandomisierung. ICRA. https://doi.org/10.1109/ICRA57147.2024.10610923
Antonini, A., et al. (2020). Der Winter naht: Lernen Sie, sich in unbekannten Umgebungen sicher zurechtzufinden. ICRA. https://doi.org/10.1109/ICRA40945.2020.9196643
Song, Y., et al. (2023). Diffusion-LM: Steuerbare Textgenerierung durch Diffusionsmodelle. NeurIPS.- Griffith, S. & Boehm, J. (2023). SynthCity: Eine großflächige synthetische Punktwolke für städtische Szenen. ISPRS Journal of Photogrammetry and Remote Sensing. https://doi.org/10.1016/j.isprsjprs.2023.04.015
Lois, C., et al. (2020). Flightmare: Ein flexibler Quadrocopter-Simulator mit modularer Wahrnehmung. IROS.

Dieser Artikel ist das fünfte erweiterte Kapitel einer Artikelreihe zur Routenplanung mit Drohnen in geringer Höhe in der Stadt. Komplette Serie 🎉