Modèles vision-langage pour la navigation par drone : fondement et frontière de la navigation vision-langage

Série intelligente UAV · Partie X Focus : Paradigme de base, architecture de base et travail représentatif de VLM+UAV

1. Contexte : Des commandes verbales au vol autonome

La planification traditionnelle de la trajectoire d’un drone repose sur des fonctions objectives mathématiques précises (telles que le chemin le plus court, la consommation d’énergie minimale), mais les instructions de mission du monde réel sont souvent des descriptions floues du langage naturel :

“Allez au terrain de basket à côté du toit rouge”
“Suivez la camionnette blanche et gardez une distance de 50 mètres”
“Trouvez un point culminant où vous pouvez voir le bâtiment du gouvernement de la ville et survoler”

Ces instructions ne peuvent pas être directement converties en objectifs d’optimisation mathématique, mais elles peuvent être comprises et raisonnées par VLM (Vision-Language Model). La navigation en langage vision (VLN) est la principale direction de recherche pour résoudre ce problème - permettant aux robots (UAV) de naviguer dans un espace physique tridimensionnel selon des instructions en langage naturel.

2. Définition des tâches : problèmes fondamentaux du VLN

La tâche VLN peut être formalisée comme :

Étant donné une instruction en langage naturel et une observation visuelle de départ , laissez l’agent effectuer une série d’actions , et enfin atteindre la position cible décrite par l’instruction.

Les principaux défis sont les suivants :

Fondement sémantique : cartographier les relations spatiales du langage (“gauche”, “arrière”, “au-dessus”) avec l’espace physique
Raisonnement à long horizon : les instructions décrivent souvent des tâches complexes en plusieurs étapes
Généralisation à échantillon nul : bâtiments, environnements et objets invisibles
Caractéristiques tridimensionnelles : le drone, contrairement aux robots terrestres, possède des capacités complètes de mouvement 3D.

3. Travail représentatif

Auteur : Xinyuan Zhang, Yonglin Tian, Fei Lin, Yue Liu, Jing Ma, Kornélia Sára Szatmáry, Fei-Yue Wang Source : arXiv :2505.03460, mai 2025

Contribution de base :

Le premier cadre de mission VLN spécifiquement destiné à la livraison de terminaux de drones à basse altitude
Proposition d’architecture de drone agentique : perception → raisonnement → planification → contrôle en boucle fermée
Défis particuliers pour les environnements urbains à basse altitude (occlusion de bâtiments, obstacles dynamiques, dérive GNSS)

Cadre de méthode :

用户指令："送包裹到红色大门旁边"
    ↓
VLM 语义解析（物体检测 + 空间关系）
    ↓
拓扑地图匹配（检测到的地标 vs 先验地图）
    ↓
路径规划（全局粗规划 + 局部视觉重规划）
    ↓
MPC 控制器执行

Points clés : Il s’agit actuellement du travail VLN le plus proche des scénarios réels de livraison d’UAV, intégrant le modèle de langage visuel de niveau GPT-4V à la couche de contrôle physique de bout en bout.

3.2 OmniVLN : VLN côté extrémité multiplateforme ouvert (arXiv, 2026)

Article : OmniVLN : Perception 3D omnidirectionnelle et raisonnement LLM efficace par jeton pour la navigation en langage visuel sur les plates-formes aériennes et terrestres Auteur : Zhongyuang Liu, Min He, Shaonan Yu et al. Source : arXiv, mars 2026

Contribution de base :

Perception 3D omnidirectionnelle : perception d’un champ de vision sphérique à 360°, plus adaptée aux canyons urbains complexes que les caméras traditionnelles orientées vers l’avant
Inférence LLM efficace par jeton : résolvez le goulot d’étranglement en matière de puissance de calcul du déploiement VLM à la périphérie
Cadre unifié multiplateforme : le même ensemble d’algorithmes s’adapte à la fois aux drones et aux robots au solInnovation technologique :

Compression de jetons 3D : codez les informations spatiales 3D en jetons compacts pour réduire le nombre de jetons d’entrée LLM
Gestion dynamique du champ de vision : ajustez de manière adaptative la zone d’intérêt en fonction des besoins de navigation
Backbone VLM léger : version côté client basée sur l’architecture Qwen-VL ou LLaVA

3.3 ASMA : UAV VLN prenant en compte les limites de sécurité (arXiv, 2024)

Article : ASMA : Un algorithme de marge de sécurité adaptatif pour la navigation des drones en langage visuel via des fonctions de barrière de contrôle sensibles à la scène Source : arXiv, septembre 2024

Contribution de base :

Intégrer explicitement les contraintes de sécurité dans le framework VLN
Fonctions proposées de barrière de contrôle sensible à la scène (fonction de barrière de contrôle sensible à la scène)
Assurer des contraintes de sécurité strictes en milieu urbain ouvert

Pourquoi c’est important : La plupart des efforts du VLN se concentrent sur la précision de la navigation et ignorent la sécurité. L’ASMA comble cette lacune : les drones peuvent faire des compromis en matière de sécurité entre « ne pas comprendre les instructions » et « heurter le mur ».

Article : Navigation visuelle et linguistique pour les drones : progrès, défis et feuille de route de recherche Auteur : Hanxuan Chen, Jie Zheng, Siqi Yang et al. Source : arXiv :2604.xxxxx, avril 2026

Couverture générale :

Historique du développement du drone VLN (2018-2026)
Classification des méthodes : apprentissage par imitation / apprentissage par renforcement / inférence LLM
Principaux enjeux : représentation spatiale tridimensionnelle, environnement dynamique, raisonnement en temps réel
Jeux de données : D3DROU, AI-TOD, UAV-VLN, etc.
Orientations futures : grands modèles multimodaux, intelligence incorporée et assurance de la sécurité

---## 4. Décomposition de l’architecture technique

4.1 Couche de perception (Perception)

Configuration de la caméra :

Tapez	Avantages	Inconvénients
RVB orienté vers l’avant	Mature, pas cher	Champ de vision étroit, informations limitées
Caméra omnidirectionnelle	Perception à 360°	Basse résolution, grande distorsion
Caméra de profondeur	Profondeur dense	Panne en extérieur, portée limitée
Multi-caméra	Triangulation stéréo	Étalonnage complexe

Responsabilités du module de perception :

Détection d’objets + segmentation sémantique (Grounding DINO, YOLO-World)
Extraction des relations spatiales (gauche et droite, haut et bas, distance relative)
Construction de graphes de scènes (objet + relation + topologie)

4.2 Comprendre la couche

Comparaison de sélection VLM :

Modèle	Volume des paramètres	Capacités visuelles	Déploiement périphérique	Travail représentatif
GPT-4V	~1,8T	Extrêmement fort	❌	Recherche académique
GPT-4o	~200B	Extrêmement fort	❌	API Cloud
LLaVA-1.6	7B/13B/34B	Fort	✅ (ONNX)	Déploiement local
Qwen-VL	7B/72B	Fort	✅	scène chinoise
CogVLM	17B	Fort	⚠️	Solution équilibrée

4.3 Couche de planification (Planification)

Paradigme de planification existant :

LLM en tant que planificateur : laissez directement LLM produire des séquences d’actions (ReAct, Reflexion)
```
Instruction → Raisonnement LLM → Séquence d'actions → Exécution
```
Planification symbolique PDDL : LLM génère une description du domaine PDDL, résolue par le planificateur classique
- Représentant : UniPlan
Planification apprenable : apprentissage par imitation/apprentissage par renforcement de bout en bout
- Avantages : S’adapter aux environnements dynamiques
- Inconvénients : mauvaise généralisation

4.4 Couche de contrôle (Contrôle)

Fonctionnalités de contrôle des drones :- Nécessite un suivi de trajectoire en temps réel (fréquence de contrôle «> 100 Hz»)

Le délai d’inférence (deuxième niveau) de VLM/LLM n’est pas cohérent avec le contrôle en temps réel
Idée de solution : contrôle hiérarchique
- Niveau élevé : VLM/LLM (lent, deuxième niveau) → point cible
- Niveau bas : MPC/PID (niveau rapide, milliseconde) → contrôle moteur

5. Principaux défis

5.1 Écart Sim2Real

Problème : VLM est pré-entraîné sur ImageNet/COCO et rencontre un nouveau paysage urbain lors d’un vol réel d’UAV
Idées de solutions :
- Randomisation de domaine (randomisation de simulation)
- Génération augmentée par récupération (RAG) supplémentaire avant
- Adaptation auto-supervisée (Ego4D, DyTap)

5.2 Délai d’inférence vs contrôle en temps réel

VLM	Délai d’inférence	Scénarios applicables
GPT-4o	1-3s	Planification hors ligne du cloud
LLaVA-7B	0,5-1s	Planification des délais Edge
LLaVA-3B	0,2-0,5 s	Bord en temps réel

Orientation de la solution :

Architecture double processus : Découplage du thread de raisonnement et du thread de contrôle
Décodage spéculatif
Quantification 4 bits (AWQ, GGUF)

5.3 Raisonnement spatial tridimensionnel

Les relations spatiales du langage (« derrière l’arbre », « sous le pont ») ne sont pas de simples projections dans l’espace tridimensionnel.

Frontières de la recherche :

SpatialPoint : prédire des waypoints exécutables en 3D
Les LLM peuvent-ils voir sans pixels ? : tester l’intelligence spatiale du LLM

6. Résumé de l’ensemble de données| Ensemble de données | Plateforme | Échelle | Caractéristiques |

|--------|------|------|------| | RxR | Sol | 126 000 commandes | Annotation experte multilingue | | VLN-CE | Sol | 61K trajectoires | Matterport3D | | AI-TOD | Drone | ~ 20 000 commandes | Perspective aérienne, photographie aérienne | | Drone-VLN | Drone | ~10 000 | Scène du canyon urbain | | D3DROU | Drone | ~5K | Obstacles dynamiques, vol réel |

7. Orientations futures de la recherche

Fusion multimodale : RVB + Profondeur + Caméra événementielle + LiDAR
Adaptation sur petits échantillons : ajustement fin de LoRA / QLoRA pour s’adapter à des environnements urbains spécifiques
VLN de collaboration avec plusieurs drones : plusieurs drones collaborent pour comprendre la même commande
Assistance au modèle mondial : intégrez le modèle mondial pour prédire les états futurs
Vérification de sécurité : méthode formelle pour vérifier la sécurité des décisions VLN

Liu et coll. OmniVLN : perception 3D omnidirectionnelle et raisonnement LLM efficace par jetons pour la navigation en langage visuel sur les plates-formes aériennes et terrestres. arXiv, 2026.
Chen et coll. Navigation visuelle et linguistique pour les drones : progrès, défis et feuille de route de recherche. arXiv, 2026.
ASMA. Un algorithme de marge de sécurité adaptatif pour la navigation des drones en langage visuel via des fonctions de barrière de contrôle sensibles à la scène. arXiv, 2024.
Blukis et coll. Mappage des instructions de navigation aux actions de contrôle continu avec prédiction de position-visite. CoRL, 2018.
Raychaudhuri et coll. Instruction zéro-shot centrée sur l’objet suivante : intégration de modèles de base avec la navigation traditionnelle. arXiv, 2024.

Modèles vision-langage pour la navigation par drone : fondement et frontière de la navigation vision-langage

Modèles vision-langage pour la navigation par drone : fondement et frontière de la navigation vision-langage

1. Contexte : Des commandes verbales au vol autonome

2. Définition des tâches : problèmes fondamentaux du VLN

3. Travail représentatif

3.1 LogisticsVLN : UAV VLN pour la distribution des terminaux (arXiv, 2025)Papier : LogisticsVLN : Navigation en langage visuel pour la livraison de terminaux à basse altitude basée sur des drones agents

3.2 OmniVLN : VLN côté extrémité multiplateforme ouvert (arXiv, 2026)

3.3 ASMA : UAV VLN prenant en compte les limites de sécurité (arXiv, 2024)

3.4 Navigation visuelle et linguistique pour les drones : présentation (arXiv, 2026)

4.1 Couche de perception (Perception)

4.2 Comprendre la couche

4.3 Couche de planification (Planification)

4.4 Couche de contrôle (Contrôle)

5. Principaux défis

5.1 Écart Sim2Real

5.2 Délai d’inférence vs contrôle en temps réel

5.3 Raisonnement spatial tridimensionnel

6. Résumé de l’ensemble de données| Ensemble de données | Plateforme | Échelle | Caractéristiques |

7. Orientations futures de la recherche

📚 Références1. Zhang et coll. LogisticsVLN : navigation en langage visuel pour la livraison de terminaux à basse altitude basée sur des drones agents. arXiv :2505.03460, 2025.