Städtische UAV-Routenplanung in geringer Höhe: semantische Kartierung und Funktionsbereichsaufteilung

Sehen Sie sich den Forschungsfortschritt der semantischen Kartierung und Funktionsbereichswahrnehmung in der städtischen UAV-Routenplanung an und decken Sie dabei die neuesten Arbeiten von CVPR/ICCV/IROS/RAL 2022–2025 ab

Städtische UAV-Routenplanung in geringer Höhe: semantische Kartierung und Funktionsbereichsaufteilung

Richtung vier: Semantische Zuordnung + Ribbon-Bewusstsein Erweitertes Kapitel · Technische Blog-Reihe Teil 4


1. Hintergrund: Von der geometrischen Karte zur semantischen Karte

Die herkömmliche UAV-Pfadplanung basiert auf einer rein geometrischen Umgebungsdarstellung – Belegungsgitter (Occupancy Grid), Octree (Octree) oder Voxelkarte (Voxel Map). Diese Darstellungen kodieren nur, „ob der Raum flugfähig ist“ und können nicht verstehen, „wohin man fliegen soll“ und „warum er nicht fliegen kann“.

Semantische Karten führen Szenenverständnis-Fähigkeiten ein, die auf geometrischer Darstellung basieren: Identifizierung semantischer Informationen wie Gebäudetypen (Wohn-/Gewerbe-/Industriegebäude), Straßenniveaus, Personendichte, Funktionsbereichsgrenzen usw. Diese Fähigkeit ist für die Stadtplanung in geringer Höhe von entscheidender Bedeutung – ein UAV, das einen Geschäftsviertelplatz überquert, birgt ein völlig anderes Risiko als das Überqueren eines Schulhofs, aber eine rein geometrische Karte würde beide als gleichwertigen freien Raum behandeln.

Darüber hinaus unterteilt Functional Zoning den städtischen Luftraum in geringer Höhe in Bereiche mit unterschiedlichen Regulierungsebenen: Kontrolle der wahren Höhe von 120 m, Flugverbotszone, Sperrgebiet, Kontrollgebiet usw. Semantisches Bewusstsein ermöglicht es UAVs, diese Regulierungsregeln proaktiv zu verstehen und einzuhalten, anstatt sich ausschließlich auf vorkommentierte statische Flugverbotszonenkarten zu verlassen.


2. Grundlagen der semantischen Abbildung: Wahrnehmung → Verstehen

2.1 Semantische Segmentierung: vom Pixel zum Szenenverständnis

Die semantische Segmentierung ist die zentrale Wahrnehmungsbasis der semantischen Zuordnung. Bei einem gegebenen Bild gibt das semantische Segmentierungsmodell pixelweise Klassenbeschriftungen aus:

Darunter ist eine Reihe semantischer Kategorien (wie Gebäude, Straßen, Vegetation, Fahrzeuge, Menschen, Himmel) und ist die Positionskodierung von Pixeln .

**Zu den gängigen semantischen Segmentierungsarchitekturen für städtische Szenen gehören:- DeepLabv3+ (Chen et al., CVPR 2018): Verwenden Sie Atrous Convolution, um das Empfangsfeld zu erweitern, ohne die Auflösung zu verlieren, und erfassen Sie so großflächige Strukturen wie städtische Gebäude und Straßen effektiv.

2.2 Instanzsegmentierung und Zielerkennung

Zusätzlich zur semantischen Segmentierung unterscheidet die Instanzsegmentierung außerdem verschiedene Individuen ähnlicher Objekte – sie trennt jeden Fußgänger in der „Fußgängergruppe“ in eine unabhängige Instanz und bietet granulare Unterstützung für die Absichtsvorhersage und Kollisionsvermeidung.

MethodenKernideenArgumentationsgeschwindigkeitRepräsentative Arbeit
ZweistufigZuerst Boxen erkennen, dann Segmentmasken~10 FPSMaske R-CNN (ICCV 2017)
EinstufigGemeinsam Masken und Kategorien vorhersagen~25 FPSYOLACT (ICCV 2019)
TransformatorbasiertErkennung + Maske im DETR-Stil~15 FPSMask2Former (CVPR 2022)
GrundlagenmodellSAM + Detektor~20 FPSSEEM (CVPR 2024)

YOLO-Serie (Ultralytics YOLOv8, 2023) wird häufig in der semantischen UAV-Echtzeitwahrnehmung verwendet – sie kann auf Jetson Orin eine Erkennungsbildrate von 50+ FPS erreichen, mit einer Latenz von , was für die Echtzeitwahrnehmungsanforderungen von Flugsteuerungssystemen geeignet ist.

2.3 Tiefenschätzung: 2D → 3D-GeometrieFür die semantische Zuordnung müssen semantische 2D-Labels in den 3D-Raum übertragen werden. Monokulare Tiefenschätzung bietet Konvertierungsfunktionen von RGB-Bildern in dichte Tiefenkarten:

Zu den wichtigsten Methoden gehören:

In Kombination mit den kamerainternen Parametern können die 2D-Pixelkoordinaten und die Tiefe in 3D-Punkte zurückprojiziert werden:


3. Städtische Funktionsgebietsaufteilung und Luftraumklassifizierung in geringer Höhe

3.1 Unterschiede in den Flugbeschränkungen in städtischen Funktionsräumen

Der städtische Raum ist je nach Art der Nutzung in verschiedene Funktionsbereiche unterteilt, und der Grad der Einschränkungen für den UAV-Flug in jedem Bereich variiert erheblich:| Funktionsbereich | Typische Szenarien | Flugbeschränkungen | Hauptrisiken | |--------|---------|---------|---------| | Wohngebiet | Wohngebiet | Höhenbeschränkungen (< 30 m), zeitliche Beschränkungen | Datenschutzverletzung, Lärmbeschwerden | | Geschäftsviertel | CBD, Einkaufszentren | Fliegen in Sichtweite | Dichtes Gedränge, Signalstörungen | | Industriegebiet | Fabriken, Lager | Mögliche Flugverbotszonen | Elektromagnetische Störungen, schwere Fahrzeuge | | Schule/Krankenhaus | Grund- und weiterführende Schulen, Krankenhäuser | Strenges Flugverbot oder Genehmigungssystem | Sicherheitsrelevant | | Verkehrsknotenpunkte | In der Nähe von Bahnhöfen und Flughäfen | Totales Flugverbot | Flugsicherheit | | Park/Grünfläche | Stadtpark | Relativ entspannt (genehmigungspflichtig) | Menschenmenge |

3.2 Klassifizierungssystem für Lufträume in geringer Höhe

Die „Interim Regulations on the Management of Unmanned Aircraft Flights“, herausgegeben von der Zivilluftfahrtbehörde Chinas (gültig ab 2024), legen einen vertikalen Kontrollrahmen mit einer wahren Höhe von 120 m fest:

Die semantische Kartierung erfordert die Kodierung dieser regulatorischen Einschränkungen in das Planungssystem, damit das UAV automatisch die flugfähige Höhe und die Flächengrenzen basierend auf dem Funktionsbereich, in dem es sich befindet, bestimmen kann.

3.3 Datenquellen zur semantischen Klassifizierung von Funktionsbereichen

Die Aufteilung städtischer Funktionsbereiche basiert auf geografischen Informationen aus mehreren Quellen:

Multi-Source-Integrationsframework:$$ \mathcal{F}{\text{Zone}}(\mathbf{x}) = \alpha \cdot f{\text{osm}}(\mathbf{x}) + \beta \cdot f_{\text{poi}}(\mathbf{x}) + \gamma \cdot f_{\text{remote}}(\mathbf{x}) + \delta \cdot f_{\text{plan}}(\mathbf{x})

You can't use 'macro parameter character #' in math mode --- ## 4. Dynamisches semantisches Verständnis: Absichtsvorhersage und Unsicherheitsquantifizierung ### 4.1 Vorhersage der Absicht von Fußgängern/Fahrzeugen Dynamische Hindernisse (Fußgänger, Radfahrer, Fahrzeuge) in städtischen Straßen stellen eine große Bedrohung für den sicheren UAV-Flug dar. **Absichtsvorhersage** erfordert nicht nur die Vorhersage der zukünftigen Position von Hindernissen, sondern auch das Verständnis ihrer Verhaltensabsichten:

\hat{\mathbf{a}}t^{(i)} = \arg\max{\mathbf{a} \in \mathcal{A}} P(\mathbf{a} | \mathbf{b}_{1:t}^{(i)}, \mathcal{E})

You can't use 'macro parameter character #' in math mode Darunter ist $\mathbf{b}_{1:t}^{(i)}$ die historische Verhaltensbahn des Hindernisses $i$, $\mathcal{E}$ ist der Umgebungskontext (Ampelstatus, Zebrastreifen, Zebrastreifen usw.) und $\mathcal{A}$ ist die festgelegte Absicht (Straße überqueren, am Straßenrand warten, auf dem Bürgersteig gehen usw.). **Social LSTM** (Alahi et al., CVPR 2016) führte erstmals Social Pooling ein, um die Interaktion von Fußgängern zu modellieren; **Trajectron++** (Salzmann et al., ICRA 2020) modellierte die Multi-Agenten-Interaktion auf Basis des Graph Neural Network (GNN) und verbesserte so die Vorhersagegenauigkeit in städtischen Kreuzungsszenen erheblich. ### 4.2 UAV-UAV-Konflikterkennung In städtischen Korridoren in geringer Höhe können mehrere UAVs gleichzeitig betrieben werden. **Kollisionserkennung** erfordert die Vorhersage potenzieller Kollisionen in Raum und Zeit:$$ \text{Konflikt} \Leftrightarrow \exists t \in [t_{\text{start}}, t_{\text{end}}]: \|\mathbf{p}_A(t) - \mathbf{p}_B(t)\| < d_{\text{sicher}}

Dabei ist der Sicherheitsabstand (normalerweise oder mehr), , sind die vorhergesagten Flugbahnen der beiden UAVs.

Konfliktlösungsstrategien umfassen:

4.3 Unsicherheitsbewusste Planung

Bei der semantischen Klassifizierung besteht eine inhärente Unsicherheit – eine Glasfassade an einer Gebäudefassade kann fälschlicherweise als Himmel und Vegetation fälschlicherweise als Gebäude klassifiziert werden. Unsicherheitsbewusste Planung Beziehen Sie wahrgenommene Unsicherheit in die Entscheidungsfindung ein:

Planen Sie Flugbahnen nur in freien Bereichen mit ausreichender Zuverlässigkeit, um einen Sicherheitsspielraum für Erfassungsfehler zu reservieren. Diese Idee steht im Einklang mit Robust Optimization – Gewährleistung der Sicherheit im schlimmsten Fall unsicherer Mengen.


5. Semantikbewusste Planung: Kostenfunktionsdesign

5.1 Semantisch erweiterte Kostenkarte

Bei der herkömmlichen Planung wird eine geometrische Kostenkarte verwendet, und jede Gitterzelle kodiert nur die Kollisionswahrscheinlichkeit. Semantic Enhanced Cost Map überlagert die semantischen Kosten mit den geometrischen Kosten:

Die semantischen Kosten werden entsprechend dem Funktionsbereich festgelegt, zu dem die Einheit gehört:$$ C_{\text{sem}}(i,j) = \begin{cases} 0 & \text{offener Park} \ 1 & \text{Geschäftsplatz} \ 5 & \text{Wohngebiet} \ 20 & \text{Schule/Krankenhaus} \ +\infty & \text{Flugverbotszone} \end{Fälle}

You can't use 'macro parameter character #' in math mode ### 5.2 Weiche Einschränkungen und harte Einschränkungen **Harte Einschränkungen** sind physische/regulatorische Einschränkungen, die nicht verletzt werden dürfen: - Es ist absolut verboten, innerhalb der Flugverbotszone zu fliegen - Fliegen Sie nicht unter der Mindestsicherheitshöhe - Der Abstand zum Hindernis darf den Sicherheitsabstand nicht unterschreiten **Weiche Einschränkungen** sind bevorzugte Ziele, die mit Kosten übertroffen werden können: - Versuchen Sie, Parks und nicht Wohngebiete zu überfliegen - Versuchen Sie, in der Nähe von Gebäudewänden zu bleiben, anstatt offene Plätze zu überqueren (um Windstörungen zu reduzieren). - Versuchen Sie, außerhalb von Zeiten mit hohem Lärmpegel zu fliegen Semantikbewusste Planung behandelt diese beiden Arten von Einschränkungen durch **hierarchische Optimierung**: Minimierung der Kosten weicher Einschränkungen bei gleichzeitiger Erfüllung harter Einschränkungen. ### 5.3 EGPBS: Semantikbewusste Sicherheitsplanung **EGPBS (Environment Graph-based Planning with Buffer Shrinking)** ist ein semantisches Planungsframework für städtische Szenen (Ideen abgeleitet aus IROS 2023-bezogener Forschung): 1. **Konstruktion eines Umgebungsgraphen**: Modellieren Sie die städtische Szene als Graphenstruktur $\mathcal{G} = (\mathcal{V}, \mathcal{E})$, Knoten $\mathcal{V}$ repräsentieren semantische Bereiche (Gebäudeblöcke, Straßen, Parks) und Kanten $\mathcal{E}$ repräsentieren Verbindungsbeziehungen zwischen Bereichen 2. **Verkleinerung des Sicherheitspuffers**: In engen Bereichen von Passagen in geringer Höhe wird der semantische Sicherheitspuffer (Sicherheitspuffer) automatisch verkleinert, um den Durchgang zu ermöglichen (schmale Korridore sind weiterhin passierbar). 3. **Grafiksuche + Trajektorienoptimierung**: A* sucht nach grobkörnigen Pfaden im Umgebungsgraphen, gefolgt von einer Zeitbereichsoptimierung durch die MINCO-Trajektorienfamilie --- ## 6. Sicherheit und Compliance: STMP/LAANC-Integration ### 6.1 STMP: Raum-Zeit-RisikomatrixplanungSTMP (Spatial-Temporal Mitigation Planning) ist ein von der FAA vorgeschlagenes Rahmenwerk zur Risikobewertung von Drohnen. Es bewertet das umfassende Risikoniveau jedes Fluges durch die Analyse von Faktoren wie Bevölkerungsdichte, Flughafenentfernung und militärischen Einrichtungen im Fluggebiet. Semantische Zuordnung kann die STMP-Auswertung direkt unterstützen: - **Bevölkerungsdichteschicht**: Statistik der Fußgängerbevölkerungsdichte am Boden durch semantische Segmentierung $\rho_{\text{People}}(\mathbf{x})$ - **Sensible Facility Layer**: Markieren Sie Schulen, Krankenhäuser und religiöse Orte anhand von POI-Daten - **Ebene „Luftfahrteinrichtungen“**: überlagerte Flughafenfreigabefläche und Streckenschutzzone Umfassender Risiko-Score:

R(\mathcal{T}) = \int_0^T \left( \alpha \cdot \rho_{\text{Menschen}}(\mathbf{p}(t)) + \beta \cdot I_{\text{Flughafen}}(\mathbf{p}(t)) + \gamma \cdot I_{\text{sensitive}}(\mathbf{p}(t)) \right) dt

You can't use 'macro parameter character #' in math mode ### 6.2 LAANC: Luftraumgenehmigung in Echtzeit LAANC (Low Altitude Authorization and Notification Capability) ist ein von der FAA bereitgestelltes Echtzeit-Luftraumautorisierungssystem für Drohnen. Das UAV fragt über die UTM-Schnittstelle (UAV Traffic Management) ab, ob sich der aktuelle Standort innerhalb des autorisierten Luftraums befindet, und kann eine Echtzeitautorisierung beantragen. Integrationspfad von semantischem Wahrnehmungssystem und LAANC: 1. UAV-Semantikkartierung zur Identifizierung des aktuellen Standortfunktionsbereichs 2. Wenn Sie sich in der Nähe der Grenze des Sperrgebiets befinden, stellen Sie einen Genehmigungsantrag beim LAANC 3. LAANC gibt den Autorisierungsstatus zurück (Genehmigt / Ausstehend / Verweigert) 4. Nachdem die Genehmigung erteilt wurde, wird das Planungssystem die Fluggenehmigung in dem Gebiet freischalten. --- ## 7. Mathematischer Rahmen: multimodale Wahrnehmungsfusion und semantische Kostenkartenkonstruktion ### 7.1 Bayesianische semantische Fusion Der Kern der Multisensorfusion ist die Bayes'sche Inferenz. Angenommen, $z_t$ ist die semantische Beobachtung (Kamerasegmentierungsergebnis) zum Zeitpunkt $t$ und die vorherige semantische Karte ist $m$, dann lautet die hintere semantische Karte:$$ P(m | z_{1:t-1}) \propto P(z_t | m, z_{1:t-1}) \cdot P(m | z_{1:t-1})

In einer praktischen Implementierung wird durch einen CRF- (Conditional Random Field) oder MLP-Klassifikator modelliert, wobei räumliche Glättungsprioritäten berücksichtigt werden (benachbarte Pixel neigen dazu, ähnliche Beschriftungen zu haben).

7.2 Faktorgraphoptimierung des semantischen SLAM

Die gemeinsame Optimierung der semantischen Zuordnung und Positionierung wird durch den Faktorgraphen realisiert:

Unter diesen ist das Odometrie-Residuum, das Schleifenschluss-Erkennungsresiduum und das semantische Beobachtungsresiduum (Konsistenzbeschränkung zwischen semantischen 3D-Punkten und semantischer Karte).

Die größte Herausforderung des semantischen SLAM liegt in der Mehrdeutigkeit semantischer Beobachtungen: Die gleiche Art semantischer Bezeichnungen kann völlig unterschiedlichen geometrischen Formen entsprechen (z. B. werden Gebäude unterschiedlichen Stils mit „Gebäude“ bezeichnet), und im Faktordiagramm muss eine entsprechende Entspannung eingeführt werden.


8.1 Großes Sprachmodell + semantisches Bewusstsein

Visual-Language-Modelle (VLMs) wie GPT-4V bringen offenes Vokabularbewusstsein in die semantische Abbildung – sie sind nicht mehr auf einen vordefinierten Satz geschlossener semantischer Kategorien beschränkt, sondern können beliebige semantische Konzepte verstehen, die in natürlicher Sprache beschrieben werden.

Anwendungsszenario: Der Benutzer sagt „Meiden Sie den Schulbereich“, VLM kann Schulmerkmale (Spielplatz, Fahnenhebeplattform, Schulschild) anhand des Bildes identifizieren; Sagt der Benutzer „Mit dem Café über die Straße fliegen“, kann VLM die Zielstraße lokalisieren. Dadurch wird die semantische Zuordnung von „passiver Abfrage“ zu „aktivem Verstehen“ verbessert.

8.2 Datenschutz und DatendesensibilisierungSemantische Kartierung umfasst eine große Anzahl von Bildern städtischer Umgebungen, was Bedenken hinsichtlich der Privatsphäre aufwirft (Sichtbarkeit innerhalb von Gebäuden, Aufzeichnung menschlicher Aktivitäten). Zu den technischen Reaktionsstrategien gehören:


9. Zusammenfassung

Semantische Kartierung hebt die urbane UAV-Planung in geringer Höhe von der geometrischen Wahrnehmung zum kognitiven Verständnis. Durch semantische Segmentierung, Tiefenschätzung und Funktionsbereichsaufteilung kann UAV verstehen, „wo fliege ich“, „warum es hier empfindlich ist“, „wie soll ich mich fortbewegen“, anstatt nur zu wissen, „gibt es hier irgendwelche Hindernisse“.

Zu den wichtigsten Forschungsrichtungen gehören: Semantisches Bewusstsein für offenes Vokabular (Befähigung großer Modelle), Unsicherheitsbewusste Planung (Umgang mit Wahrnehmungsfehlern), STMP/LAANC-Compliance-Integration (regulierungsgesteuerte semantische Einschränkungen). Da sich der regulatorische Rahmen für die städtische Tieflandwirtschaft weiter verbessert, werden semantische Bewusstseinsfähigkeiten zu einem Standardbestandteil städtischer UAV-Planungssysteme.


Referenzen


*Dieser Artikel ist das vierte erweiterte Kapitel einer Artikelreihe zur Routenplanung mit Drohnen in geringer Höhe in der Stadt. *