Städtische UAV-Routenplanung in geringer Höhe: semantische Kartierung und Funktionsbereichsaufteilung
Richtung vier: Semantische Zuordnung + Ribbon-Bewusstsein Erweitertes Kapitel · Technische Blog-Reihe Teil 4
1. Hintergrund: Von der geometrischen Karte zur semantischen Karte
Die herkömmliche UAV-Pfadplanung basiert auf einer rein geometrischen Umgebungsdarstellung – Belegungsgitter (Occupancy Grid), Octree (Octree) oder Voxelkarte (Voxel Map). Diese Darstellungen kodieren nur, „ob der Raum flugfähig ist“ und können nicht verstehen, „wohin man fliegen soll“ und „warum er nicht fliegen kann“.
Semantische Karten führen Szenenverständnis-Fähigkeiten ein, die auf geometrischer Darstellung basieren: Identifizierung semantischer Informationen wie Gebäudetypen (Wohn-/Gewerbe-/Industriegebäude), Straßenniveaus, Personendichte, Funktionsbereichsgrenzen usw. Diese Fähigkeit ist für die Stadtplanung in geringer Höhe von entscheidender Bedeutung – ein UAV, das einen Geschäftsviertelplatz überquert, birgt ein völlig anderes Risiko als das Überqueren eines Schulhofs, aber eine rein geometrische Karte würde beide als gleichwertigen freien Raum behandeln.
Darüber hinaus unterteilt Functional Zoning den städtischen Luftraum in geringer Höhe in Bereiche mit unterschiedlichen Regulierungsebenen: Kontrolle der wahren Höhe von 120 m, Flugverbotszone, Sperrgebiet, Kontrollgebiet usw. Semantisches Bewusstsein ermöglicht es UAVs, diese Regulierungsregeln proaktiv zu verstehen und einzuhalten, anstatt sich ausschließlich auf vorkommentierte statische Flugverbotszonenkarten zu verlassen.
2. Grundlagen der semantischen Abbildung: Wahrnehmung → Verstehen
2.1 Semantische Segmentierung: vom Pixel zum Szenenverständnis
Die semantische Segmentierung ist die zentrale Wahrnehmungsbasis der semantischen Zuordnung. Bei einem gegebenen Bild
Darunter ist
**Zu den gängigen semantischen Segmentierungsarchitekturen für städtische Szenen gehören:- DeepLabv3+ (Chen et al., CVPR 2018): Verwenden Sie Atrous Convolution, um das Empfangsfeld zu erweitern, ohne die Auflösung zu verlieren, und erfassen Sie so großflächige Strukturen wie städtische Gebäude und Straßen effektiv.
- MaskFormer (Cheng et al., CVPR 2022): Vereinheitlicht die semantische Segmentierung als Maskenklassifizierungsproblem, unterstützt eine beliebige Anzahl semantischer Kategorien und muss keinen festen
voreinstellen - Segment Anything Model (SAM) (Kirillov et al., ICCV 2023): Ein von Meta vorgeschlagenes universelles Segmentierungs-Basismodell, das die Zero-Shot-Segmentierung von Punkt-/Box-/Text-Eingabeaufforderungen unterstützt und ein neues Paradigma für die semantische Zuordnung städtischer Szenen mit offenem Vokabular bietet.
2.2 Instanzsegmentierung und Zielerkennung
Zusätzlich zur semantischen Segmentierung unterscheidet die Instanzsegmentierung außerdem verschiedene Individuen ähnlicher Objekte – sie trennt jeden Fußgänger in der „Fußgängergruppe“ in eine unabhängige Instanz und bietet granulare Unterstützung für die Absichtsvorhersage und Kollisionsvermeidung.
| Methoden | Kernideen | Argumentationsgeschwindigkeit | Repräsentative Arbeit |
|---|---|---|---|
| Zweistufig | Zuerst Boxen erkennen, dann Segmentmasken | ~10 FPS | Maske R-CNN (ICCV 2017) |
| Einstufig | Gemeinsam Masken und Kategorien vorhersagen | ~25 FPS | YOLACT (ICCV 2019) |
| Transformatorbasiert | Erkennung + Maske im DETR-Stil | ~15 FPS | Mask2Former (CVPR 2022) |
| Grundlagenmodell | SAM + Detektor | ~20 FPS | SEEM (CVPR 2024) |
YOLO-Serie (Ultralytics YOLOv8, 2023) wird häufig in der semantischen UAV-Echtzeitwahrnehmung verwendet – sie kann auf Jetson Orin eine Erkennungsbildrate von 50+ FPS erreichen, mit einer Latenz von
2.3 Tiefenschätzung: 2D → 3D-GeometrieFür die semantische Zuordnung müssen semantische 2D-Labels in den 3D-Raum übertragen werden. Monokulare Tiefenschätzung bietet Konvertierungsfunktionen von RGB-Bildern in dichte Tiefenkarten:
Zu den wichtigsten Methoden gehören:
- MiDaS (Ranftl et al., NeurIPS 2020): nutzt Multi-Dataset-Training (gemischte überwachte + unüberwachte Tiefe), schneidet gut bei der Null-Stichproben-Generalisierung ab und ist derzeit das am weitesten verbreitete Basismodell für die monokulare Tiefenschätzung.
- Depth-Anything (Yang et al., arxiv 2024): Nutzung einer groß angelegten annotationsfreien Bildverbesserung auf Basis von MiDaS, um eine höhere Tiefengenauigkeit in städtischen Szenen zu erreichen
- DPT (Ranftl et al., ICCV 2021): Auf ViT basierende Transformer-Architektur gibt direkt hochauflösende Tiefenkarten aus
In Kombination mit den kamerainternen Parametern
3. Städtische Funktionsgebietsaufteilung und Luftraumklassifizierung in geringer Höhe
3.1 Unterschiede in den Flugbeschränkungen in städtischen Funktionsräumen
Der städtische Raum ist je nach Art der Nutzung in verschiedene Funktionsbereiche unterteilt, und der Grad der Einschränkungen für den UAV-Flug in jedem Bereich variiert erheblich:| Funktionsbereich | Typische Szenarien | Flugbeschränkungen | Hauptrisiken | |--------|---------|---------|---------| | Wohngebiet | Wohngebiet | Höhenbeschränkungen (< 30 m), zeitliche Beschränkungen | Datenschutzverletzung, Lärmbeschwerden | | Geschäftsviertel | CBD, Einkaufszentren | Fliegen in Sichtweite | Dichtes Gedränge, Signalstörungen | | Industriegebiet | Fabriken, Lager | Mögliche Flugverbotszonen | Elektromagnetische Störungen, schwere Fahrzeuge | | Schule/Krankenhaus | Grund- und weiterführende Schulen, Krankenhäuser | Strenges Flugverbot oder Genehmigungssystem | Sicherheitsrelevant | | Verkehrsknotenpunkte | In der Nähe von Bahnhöfen und Flughäfen | Totales Flugverbot | Flugsicherheit | | Park/Grünfläche | Stadtpark | Relativ entspannt (genehmigungspflichtig) | Menschenmenge |
3.2 Klassifizierungssystem für Lufträume in geringer Höhe
Die „Interim Regulations on the Management of Unmanned Aircraft Flights“, herausgegeben von der Zivilluftfahrtbehörde Chinas (gültig ab 2024), legen einen vertikalen Kontrollrahmen mit einer wahren Höhe von 120 m fest:
- Tatsächliche Höhe unter 120 m: Leichte UAVs (
) können frei fliegen und erfordern eine Registrierung mit echtem Namen; Mikro-UAVs ( ) unterliegen keinen Flugqualifikationsbeschränkungen - Tatsächliche Höhe 120m-300m: in der Kontrolle enthalten, Flugluftraumanwendung erforderlich
- Fusionsluftraum für Einzelflüge: Bestimmte Bereiche ermöglichen Fusionsoperationen von UAVs und bemannten Flugzeugen
Die semantische Kartierung erfordert die Kodierung dieser regulatorischen Einschränkungen in das Planungssystem, damit das UAV automatisch die flugfähige Höhe und die Flächengrenzen basierend auf dem Funktionsbereich, in dem es sich befindet, bestimmen kann.
3.3 Datenquellen zur semantischen Klassifizierung von Funktionsbereichen
Die Aufteilung städtischer Funktionsbereiche basiert auf geografischen Informationen aus mehreren Quellen:
- OSM (OpenStreetMap): Geografische Open-Source-Daten, die eine grundlegende Merkmalsklassifizierung wie Straßen, Gebäude und Gewässer ermöglichen und eine wichtige vorherige Quelle für die Inferenz funktionaler Gebiete darstellen.
- POI-Daten (Point of Interest): Die Amap/Baidu-Karten-API stellt POI-Daten für Städte bereit, und regionale Funktionen können durch POI-Dichte und -Typ abgeleitet werden (POIs in der Nähe von Schulen sind beispielsweise hauptsächlich Bildungseinrichtungen).
- Fernerkundungsbilder: Sentinel-2/Gaofen-2-Satellitenbilder liefern Makroinformationen zur Landnutzungsklassifizierung
- Stadtplanungsdaten: Die Landnutzungsebene (Kontrollplan) im städtischen Masterplan, die rechtliche Wirkung hat
Multi-Source-Integrationsframework:$$ \mathcal{F}{\text{Zone}}(\mathbf{x}) = \alpha \cdot f{\text{osm}}(\mathbf{x}) + \beta \cdot f_{\text{poi}}(\mathbf{x}) + \gamma \cdot f_{\text{remote}}(\mathbf{x}) + \delta \cdot f_{\text{plan}}(\mathbf{x})
\hat{\mathbf{a}}t^{(i)} = \arg\max{\mathbf{a} \in \mathcal{A}} P(\mathbf{a} | \mathbf{b}_{1:t}^{(i)}, \mathcal{E})
Dabei ist
Konfliktlösungsstrategien umfassen:
- Regelbasierte Zuweisung: Weisen Sie verschiedenen UAVs unabhängige Zeitfenster (Time Slots) oder Raumkorridore zu
- Verteilte Verhandlung: UAVs tauschen Flugbahnvorhersagen durch Kommunikation aus und arbeiten zusammen, um konfliktfreie Pfade zu planen
- Zentralisierte Planung: Die Bodenkontrollstation plant mehrere UAV-Flugbahnen auf einheitliche Weise
4.3 Unsicherheitsbewusste Planung
Bei der semantischen Klassifizierung besteht eine inhärente Unsicherheit – eine Glasfassade an einer Gebäudefassade kann fälschlicherweise als Himmel und Vegetation fälschlicherweise als Gebäude klassifiziert werden. Unsicherheitsbewusste Planung Beziehen Sie wahrgenommene Unsicherheit in die Entscheidungsfindung ein:
Planen Sie Flugbahnen nur in freien Bereichen mit ausreichender Zuverlässigkeit, um einen Sicherheitsspielraum für Erfassungsfehler zu reservieren. Diese Idee steht im Einklang mit Robust Optimization – Gewährleistung der Sicherheit im schlimmsten Fall unsicherer Mengen.
5. Semantikbewusste Planung: Kostenfunktionsdesign
5.1 Semantisch erweiterte Kostenkarte
Bei der herkömmlichen Planung wird eine geometrische Kostenkarte verwendet, und jede Gitterzelle
Die semantischen Kosten
R(\mathcal{T}) = \int_0^T \left( \alpha \cdot \rho_{\text{Menschen}}(\mathbf{p}(t)) + \beta \cdot I_{\text{Flughafen}}(\mathbf{p}(t)) + \gamma \cdot I_{\text{sensitive}}(\mathbf{p}(t)) \right) dt
In einer praktischen Implementierung wird
7.2 Faktorgraphoptimierung des semantischen SLAM
Die gemeinsame Optimierung der semantischen Zuordnung und Positionierung wird durch den Faktorgraphen realisiert:
Unter diesen ist
Die größte Herausforderung des semantischen SLAM liegt in der Mehrdeutigkeit semantischer Beobachtungen: Die gleiche Art semantischer Bezeichnungen kann völlig unterschiedlichen geometrischen Formen entsprechen (z. B. werden Gebäude unterschiedlichen Stils mit „Gebäude“ bezeichnet), und im Faktordiagramm muss eine entsprechende Entspannung eingeführt werden.
8. Zukünftige Trends und offene Fragen
8.1 Großes Sprachmodell + semantisches Bewusstsein
Visual-Language-Modelle (VLMs) wie GPT-4V bringen offenes Vokabularbewusstsein in die semantische Abbildung – sie sind nicht mehr auf einen vordefinierten Satz geschlossener semantischer Kategorien beschränkt, sondern können beliebige semantische Konzepte verstehen, die in natürlicher Sprache beschrieben werden.
Anwendungsszenario: Der Benutzer sagt „Meiden Sie den Schulbereich“, VLM kann Schulmerkmale (Spielplatz, Fahnenhebeplattform, Schulschild) anhand des Bildes identifizieren; Sagt der Benutzer „Mit dem Café über die Straße fliegen“, kann VLM die Zielstraße lokalisieren. Dadurch wird die semantische Zuordnung von „passiver Abfrage“ zu „aktivem Verstehen“ verbessert.
8.2 Datenschutz und DatendesensibilisierungSemantische Kartierung umfasst eine große Anzahl von Bildern städtischer Umgebungen, was Bedenken hinsichtlich der Privatsphäre aufwirft (Sichtbarkeit innerhalb von Gebäuden, Aufzeichnung menschlicher Aktivitäten). Zu den technischen Reaktionsstrategien gehören:
- Edge-Side-Verarbeitung: Die semantische Segmentierung wird in der UAV-Onboard-Recheneinheit abgeschlossen und das Originalbild wird nicht zurück an die Bodenstation übertragen
- Datenschutzbewusstes Rendering: Bereiche mit Gesichtern automatisch kodieren oder entfernen
- Federated Semantic Mapping: Mehrere UAVs teilen semantische Kartenaktualisierungen, jedoch keine Rohbilder
9. Zusammenfassung
Semantische Kartierung hebt die urbane UAV-Planung in geringer Höhe von der geometrischen Wahrnehmung zum kognitiven Verständnis. Durch semantische Segmentierung, Tiefenschätzung und Funktionsbereichsaufteilung kann UAV verstehen, „wo fliege ich“, „warum es hier empfindlich ist“, „wie soll ich mich fortbewegen“, anstatt nur zu wissen, „gibt es hier irgendwelche Hindernisse“.
Zu den wichtigsten Forschungsrichtungen gehören: Semantisches Bewusstsein für offenes Vokabular (Befähigung großer Modelle), Unsicherheitsbewusste Planung (Umgang mit Wahrnehmungsfehlern), STMP/LAANC-Compliance-Integration (regulierungsgesteuerte semantische Einschränkungen). Da sich der regulatorische Rahmen für die städtische Tieflandwirtschaft weiter verbessert, werden semantische Bewusstseinsfähigkeiten zu einem Standardbestandteil städtischer UAV-Planungssysteme.
Referenzen
-
Cheng, B., Misra, I., Schwing, A. G., et al. (2022). MaskFormer für Semantik- und Instanzsegmentierung. CVPR. https://doi.org/10.1109/CVPR52688.2022.00227
-
Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., … & Girshick, R. (2023). Segmentieren Sie alles. ICCV.
-
Ranftl, R., Lasinger, K., Hafner, D., Schindler, K. & Koltun, V. (2020). Auf dem Weg zu einer robusten monokularen Tiefenschätzung: Mischen von Datensätzen für eine datensatzübergreifende Null-Schuss-Übertragung. IEEE TPAMI. https://doi.org/10.1109/TPAMI.2020.3019967- Ranftl, R., Bochkovskiy, A. & Koltun, V. (2021). Vision-Transformatoren für dichte Vorhersagen. ICCV. https://doi.org/10.1109/ICCV48922.2021.01017
-
Alahi, A., Goel, K., Ramanathan, V., Robicquet, A., Fei-Fei, L. & Savarese, S. (2016). Soziales LSTM: Vorhersage der menschlichen Flugbahn in überfüllten Räumen. CVPR. https://doi.org/10.1109/CVPR.2016.99
-
Salzmann, T., Ivanovic, B., Chakravarty, P. & Pavone, M. (2020). Trajectron++: Dynamisch durchführbare Flugbahnvorhersage mit heterogenen Daten. ECCV. https://doi.org/10.1007/978-3-030-46732-6_43
-
Zhou, H., Ren, D., Wu, J., et al. (2023). Egpbps: Umgebungsgraphbasierte Planung mit Pufferverkleinerung für die UAV-Navigation. IROS.
-
Liu, Y., Chen, J., Wang, X., et al. (2023). Depth-Anything: Die Leistungsfähigkeit umfangreicher, unbeschrifteter Daten freisetzen. arxiv:2401.10891.
*Dieser Artikel ist das vierte erweiterte Kapitel einer Artikelreihe zur Routenplanung mit Drohnen in geringer Höhe in der Stadt. *