Vision-Language-Modelle für die UAV-Navigation: Grundlage und Grenze der Vision-Language-Navigation

Überblick über das grundlegende Paradigma, die Kernarchitektur und die repräsentative Arbeit der VLM+UAV-Navigation, einschließlich der neuesten Veröffentlichungen wie LogisticsVLN, OmniVLN und ASMA

Vision-Language-Modelle für die UAV-Navigation: Die Grundlage und Grenze der Vision-Language-Navigation

UAV Intelligent Series · Teil X Fokus: Grundlegendes Paradigma, Kernarchitektur und repräsentative Arbeit von VLM+UAV


1. Hintergrund: Von verbalen Befehlen zum autonomen Flug

Die traditionelle UAV-Pfadplanung basiert auf präzisen mathematischen Zielfunktionen (z. B. kürzester Pfad, minimaler Energieverbrauch), aber reale Missionsanweisungen sind oft unscharfe Beschreibungen natürlicher Sprache:

Diese Anweisungen können nicht direkt in mathematische Optimierungsziele umgewandelt werden, sie können jedoch durch VLM (Vision-Language Model) verstanden und begründet werden. Die Vision-Language-Navigation (VLN) ist die zentrale Forschungsrichtung zur Lösung dieses Problems und ermöglicht es Robotern (UAV), im dreidimensionalen physischen Raum gemäß Anweisungen in natürlicher Sprache zu navigieren.


2. Aufgabenstellung: Kernthemen der VLN

Die VLN-Aufgabe kann wie folgt formalisiert werden:

Lassen Sie den Agenten anhand einer natürlichsprachlichen Anweisung und einer anfänglichen visuellen Beobachtung eine Reihe von Aktionen ausführen und schließlich die durch die Anweisung beschriebene Zielposition erreichen.

Die wichtigsten Herausforderungen sind:

  1. Semantische Begründung: räumliche Beziehungen in der Sprache („links“, „hinten“, „oben“) auf den physischen Raum abbilden
  2. Long Horizon Reasoning: Anweisungen beschreiben oft komplexe mehrstufige Aufgaben
  3. Zero-Sample-Generalisierung: Unsichtbare Gebäude, Umgebungen und Objekte
  4. Dreidimensionale Eigenschaften: UAV verfügt im Gegensatz zu Bodenrobotern über vollständige 3D-Bewegungsfähigkeiten

3. Repräsentative Arbeit

3.1 LogisticsVLN: UAV VLN für Terminalverteilung (arXiv, 2025)Artikel: LogisticsVLN: Vision-Language-Navigation für die Terminalzustellung in geringer Höhe auf Basis von Agenten-UAVs

Autor: Xinyuan Zhang, Yonglin Tian, Fei Lin, Yue Liu, Jing Ma, Kornélia Sára Szatmáry, Fei-Yue Wang Quelle: arXiv:2505.03460, Mai 2025

Kernbeitrag:

Methodenrahmen:

用户指令:"送包裹到红色大门旁边"

VLM 语义解析(物体检测 + 空间关系)

拓扑地图匹配(检测到的地标 vs 先验地图)

路径规划(全局粗规划 + 局部视觉重规划)

MPC 控制器执行

Wichtige Erkenntnisse: Dies ist derzeit die VLN-Arbeit, die den tatsächlichen UAV-Bereitstellungsszenarien am nächsten kommt und das visuelle Sprachmodell auf GPT-4V-Ebene durchgängig mit der physischen Kontrollschicht integriert.


3.2 OmniVLN: Offenes, plattformübergreifendes, endseitiges VLN (arXiv, 2026)

Aufsatz: OmniVLN: Omnidirektionale 3D-Wahrnehmung und tokeneffizientes LLM-Argument für die visuelle Sprachnavigation über Luft- und Bodenplattformen hinweg Autor: Zhongyuang Liu, Min He, Shaonan Yu et al. Quelle: arXiv, März 2026

Kernbeitrag:

  1. 3D-Token-Komprimierung: Codieren Sie räumliche 3D-Informationen in kompakte Token, um die Anzahl der LLM-Eingabe-Tokens zu reduzieren
  2. Dynamische Sichtfeldverwaltung: Passen Sie den Interessenbereich adaptiv an die Navigationsanforderungen an
  3. Leichtes VLM-Backbone: Clientseitige Version basierend auf der Qwen-VL- oder LLaVA-Architektur

3.3 ASMA: Security Boundary-Aware UAV VLN (arXiv, 2024)

Artikel: ASMA: Ein adaptiver Sicherheitsmargenalgorithmus für die Vision-Language-Drohnennavigation über szenenbewusste Kontrollbarrierenfunktionen Quelle: arXiv, September 2024

Kernbeitrag:

Warum es wichtig ist: Die meisten VLN-Bemühungen konzentrieren sich auf die Navigationsgenauigkeit und ignorieren die Sicherheit. ASMA füllt diese Lücke – UAVs können Sicherheitskompromisse zwischen „Anweisungen nicht verstehen“ und „gegen die Wand stoßen“ eingehen.


3.4 Vision-and-Language-Navigation für UAVs: Überblick (arXiv, 2026)

Papier: Vision-and-Language-Navigation für UAVs: Fortschritte, Herausforderungen und eine Forschungs-Roadmap Autor: Hanxuan Chen, Jie Zheng, Siqi Yang et al. Quelle: arXiv:2604.xxxxx, April 2026

Übersichtsabdeckung:

---## 4. Zerlegung der technischen Architektur

4.1 Wahrnehmungsschicht (Wahrnehmung)

Kamerakonfiguration:

Geben Sieein VorteileNachteile
Nach vorne gerichtetes RGBAusgereift, günstigEnges Sichtfeld, begrenzte Informationen
Omnidirektionale Kamera360°-WahrnehmungGeringe Auflösung, große Verzerrung
TiefenkameraDichte TiefeAusfall im Freien, eingeschränkte Reichweite
MultikameraStereo-TriangulationKomplexe Kalibrierung

Verantwortlichkeiten des Wahrnehmungsmoduls:

  1. Objekterkennung + semantische Segmentierung (Grounding DINO, YOLO-World)
  2. Extraktion der räumlichen Beziehung (links und rechts, oben und unten, relativer Abstand)
  3. Aufbau eines Szenendiagramms (Objekt + Beziehung + Topologie)

4.2 Ebene verstehen

VLM-Auswahlvergleich:

ModellParametervolumenSehfähigkeitenEdge-BereitstellungRepräsentative Arbeit
GPT-4V~1,8TExtrem starkAkademische Forschung
GPT-4o~200BExtrem starkCloud-API
LLaVA-1.67B/13B/34BStark✅ (ONNX)Lokale Bereitstellung
Qwen-VL7B/72BStarkChinesische Szene
CogVLM17BStark⚠️Ausgewogene Lösung

4.3 Planungsebene (Planung)

Bestehendes Planungsparadigma:

  1. LLM als Planer: Aktionssequenzen direkt von LLM ausgeben lassen (ReAct, Reflexion) „ Anweisung → LLM-Argumentation → Aktionssequenz → Ausführung „
  2. Symbolische PDDL-Planung: LLM generiert eine PDDL-Domänenbeschreibung, gelöst durch den klassischen Planer
    • Vertreter: UniPlan
  3. Lernbare Planung: Durchgängiges Nachahmungslernen/Verstärkungslernen
    • Vorteile: Anpassung an dynamische Umgebungen
    • Nachteile: schlechte Verallgemeinerung

4.4 Kontrollschicht (Kontrolle)

UAV-Steuerungsfunktionen:- Erfordert Echtzeit-Trajektorienverfolgung (Steuerfrequenz „>100 Hz“)


5. Wichtigste Herausforderungen

5.1 Sim2Real-Lücke

5.2 Inferenzverzögerung vs. Echtzeitsteuerung

VLMInferenzverzögerungAnwendbare Szenarien
GPT-4o1-3sCloud-Offline-Planung
LLaVA-7B0,5-1sKantenverzögerungsplanung
LLaVA-3B0,2-0,5sEdge-Echtzeit

Lösungsrichtung:

5.3 Dreidimensionales räumliches Denken

Die räumlichen Beziehungen in der Sprache („hinter dem Baum“, „unter der Brücke“) sind keine einfachen Projektionen im dreidimensionalen Raum.

Forschungsgrenzen:


6. Zusammenfassung des Datensatzes| Datensatz | Plattform | Maßstab | Funktionen |

|--------|------|------|------| | RxR | Boden | 126.000 Befehle | Mehrsprachige, fachmännische Anmerkungen | | VLN-CE | Boden | 61K Flugbahnen | Matterport3D | | AI-TOD | UAV | ~20.000 Befehle | Luftperspektive, Luftfotografie | | UAV-VLN | UAV | ~10K | Urban Canyon-Szene | | D3DROU | UAV | ~5K | Dynamische Hindernisse, echter Flug |


7. Zukünftige Forschungsrichtungen

  1. Multimodale Fusion: RGB + Tiefe + Ereigniskamera + LiDAR
  2. Anpassung kleiner Stichproben: LoRA/QLoRA-Feinabstimmung zur Anpassung an bestimmte städtische Umgebungen
  3. Mehrere UAV-Zusammenarbeit VLN: Mehrere UAVs arbeiten zusammen, um denselben Befehl zu verstehen
  4. Weltmodellunterstützung: Integrieren Sie das Weltmodell, um zukünftige Zustände vorherzusagen
  5. Sicherheitsüberprüfung: Formale Methode zur Überprüfung der VLN-Entscheidungssicherheit

📚 Referenzen1. Zhang et al. LogisticsVLN: Vision-Language-Navigation für die Terminalzustellung in geringer Höhe auf Basis von Agenten-UAVs. arXiv:2505.03460, 2025.

  1. Liu et al. OmniVLN: Omnidirektionale 3D-Wahrnehmung und tokeneffizientes LLM-Argumentation für die visuelle Sprachnavigation über Luft- und Bodenplattformen hinweg. arXiv, 2026.
  2. Chen et al. Vision-and-Language-Navigation für UAVs: Fortschritte, Herausforderungen und eine Forschungs-Roadmap. arXiv, 2026.
  3. ASMA. Ein adaptiver Sicherheitsmargenalgorithmus für die Vision-Language-Drohnennavigation über szenenbewusste Kontrollbarrierenfunktionen. arXiv, 2024.
  4. Blukis et al. Zuordnung von Navigationsanweisungen zu kontinuierlichen Steueraktionen mit Positionsvisitationsvorhersage. CoRL, 2018.
  5. Raychaudhuri et al. Zero-Shot Object-Centric Instruction Following: Integration von Foundation-Modellen mit traditioneller Navigation. arXiv, 2024.