Planification de mission de drone guidée par LLM : la frontière de l’inférence à l’exécution

Série intelligente UAV · Chapitre X+1 Pleins feux : LLM comme planificateur de mission, intégration de planification symbolique, architecture d’inférence en temps réel

1. Pourquoi le LLM est-il adapté à la planification de missions de drones ?

Le défi de la planification des missions des drones réside dans l’incertitude du monde ouvert :

传统规划（基于模型）：
输入：精确目标状态 + 精确环境模型
输出：最优动作序列
局限：模型不准就崩溃，无法处理语言目标

LLM 规划（基于知识）：
输入：自然语言指令 + 视觉观测 + 世界知识
输出：可执行动作序列
优势：泛化性强、零样本理解新任务

Avantages du LLM :

Connaissance du monde : la pré-formation contient de riches connaissances physiques (“L’eau coule”, “Les voitures sont plus rapides que les gens”)
Inférence Zero-shot : pas besoin de s’entraîner séparément pour chaque tâche
Planification en plusieurs étapes : Décomposer des tâches complexes en chaînes de sous-objectifs (Chaîne de pensée)

2. Le paradigme du LLM pour la planification des tâches

2.1 Paradigme 1 : LLM en tant que planificateur (actions de sortie directe)

Travail représentatif :

ReAct (Raisonnement + Agir)

Idée centrale : le LLM alterne « raisonnement » et « action »
Chaque étape : obs → réfléchir → action → next_obs
Applicable à : Scénarios avec un statut observable et un retour environnemental clair
Adaptation sur drone : nécessite une action rapide → boucle obs

SayCan (PaLM-SayCan, 2022)

Combiner la « description de capacité » de LLM avec la « faisabilité » physique
Le robot dit “ce qu’il peut faire”, et le LLM décide “ce qu’il doit faire”
Enlightenment : Le drone peut filtrer les actions irréalisables en fonction de son propre statut (puissance, restrictions de vol)

2.2 Paradigme 2 : Planification des symboles LLM + PDDL

PDDL (Planning Domain Definition Language) est un langage classique de planification de tâches robotiques qui modélise les tâches sous forme de problèmes symboliques discrets.

Idée de base :

VLM 感知 → PDDL problem 生成 → 经典规划器 → UAV 动作序列

Avantages :

Les résultats de la planification peuvent être expliqués et vérifiés
Preuve mathématique pour garantir l’achèvement de la tâche
Adapté aux scénarios critiques pour la sécurité (vols dans l’espace aérien urbain)

Défi :

La modélisation PDDL elle-même est un goulot d’étranglement (nécessite des experts du domaine)
La dynamique continue des drones n’est pas totalement compatible avec les hypothèses discrètes du PDDL
Idée de solution : PDDL gère la décomposition des tâches de haut niveau, MPC gère l’exécution de trajectoires de bas niveau

---### 2.3 Paradigme 3 : LLM + RAG (génération améliorée par récupération)

** MPC génératif (arXiv, 2026) **

Article : GenerativeMPC : MPC du corps entier guidé par VLM-RAG avec impédance virtuelle pour la manipulation mobile bimanuelle Auteur : Marcelino Julio Fernando et al. Source : arXiv, avril 2026

Idée de base :

VLM 感知当前场景 → 检索相关操作知识库 → RAG 生成操作建议 → MPC 执行

Technologie clé :

Récupération de connaissances : récupérez les exemples les plus pertinents pour le scénario actuel à partir de la base de connaissances opérationnelles (y compris les données d’expérience de contrôle du robot)
Impédance virtuelle : générez des paramètres de contrôle de conformité pour éviter les collisions rigides
Filtrage RAG : assurez-vous que la sortie LLM est physiquement exécutable

Adaptation sur drone :

Rechercher les codes du bâtiment (restrictions de hauteur, zones d’exclusion aérienne)
Récupérer l’expérience historique de la mission (paramètres de vol dans des conditions météorologiques similaires)
Récupérer les protocoles de sécurité (distance minimale d’évitement d’obstacles, procédures d’urgence)

3. Architecture de raisonnement en temps réel

3.1 Architecture à double processus (arXiv, 2026)

Article : Une architecture à double processus pour la navigation intérieure basée sur VLM en temps réel Auteur : Joonhee Lee, Hyunseung Shin, Jeonggil Ko Source : arXiv :2601.19401, janvier 2026

Conception de base :

┌─────────────────────────────────────────────┐
│           System Architecture               │
│                                             │
│  Process 1 (Slow): VLM Reasoning Thread     │
│  ┌─────────────────────────────────────┐   │
│  │ VLM: "What should I do next?"       │   │
│  │ Frequency: ~0.2-1 Hz                 │   │
│  │ Output: Navigation goal / decision  │   │
│  └─────────────────────────────────────┘   │
│              ↓ goal                        │
│  Process 2 (Fast): Control Execution Thread│
│  ┌─────────────────────────────────────┐   │
│  │ MPC: Track trajectory to goal        │   │
│  │ Frequency: ~100 Hz                   │   │
│  │ Output: Motor control signals        │   │
│  └─────────────────────────────────────┘   │
└─────────────────────────────────────────────┘

Principes de conception :

Quick Process (MPC) : réponse au niveau de la milliseconde, traitement de l’évitement d’obstacles en temps réel
Slow Process (VLM) : Raisonnement de deuxième niveau, traitement des décisions de haut niveau
Découplage critique : VLM n’est pas sur le chemin critique et n’affecte pas la fréquence de contrôle

3.2 Cadre de planification hiérarchique

**Niveau élevé (LLM/VLM, deuxième niveau) : **

任务理解 → 子目标分解 → 全局路径规划 → 授权低层执行

**Couche intermédiaire (optimisation différenciable, niveau 100 ms) : **

RRT*/MPC → 局部路径重规划 → 平滑轨迹生成
```**Couche basse (PID/MPC, niveau milliseconde) : **

姿态控制 → 电机分配 → 执行


---

## 4. Profondeur de l'algorithme clé

### 4.1 VoxPoser : carte de valeurs 3D synthétique LLM

**Article :** *VoxPoser : Cartes de valeurs 3D composables pour la manipulation robotique avec des modèles de langage*
**Auteur :** Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, Li Fei-Fei
**Source :** arXiv :2307.05973, juillet 2023

**Contribution de base :**
- Sortie LLM **Carte thermique spatiale 3D** (carte de valeurs 3D composable)
- Encodage par carte thermique "où aller" et "ce qu'il faut éviter"
- Directement utilisé comme fonction de récompense pour l'optimisation de trajectoire

**Extension sur le drone :**
- Carte thermique d'occupation 3D de sortie VLM
- Fonction de coût MPC basée sur la carte thermique
- VoxPoser pour UAV = "accessibilité spatiale 3D du langage"

**Remarque :** VoxPoser a été publié sur arXiv. Aucun rapport clair sur les publications de la conférence n'a été trouvé jusqu'à présent.

---

### 4.2 CoNVO (optimisation conditionnelle de la valeur neuronale)

Combinez la planification LLM avec l'itération de valeur :
- LLM fournit des **préférences prioritaires** (quelles actions sont les plus raisonnables)
- L'itération de valeur fournit une **garantie d'optimalité**
- Plus robuste que la planification LLM pure et plus flexible que la planification pure

---

## 5. Planification assistée par un modèle mondial

### 5.1 Pourquoi un modèle mondial ?

Les connaissances du LLM sont statiques, mais l'environnement drone est dynamique :
- Le vent va changer
- Les obstacles se déplaceront
- Les signaux GNSS peuvent dériver

Le modèle mondial permet aux drones de **prédire l'avenir** :

当前状态 + 动作 → 世界模型 → 预测未来状态序列 LLM 在预测的未来状态序列上做规划（Plan over imagined futures）


### 5.2 Représentant papier**Série Dreamer** (Daniel Hafner, Jürg Widmer, etc.)
- Basé sur le modèle dynamique RSSM
- Faire un apprentissage par renforcement sur un futur imaginé
- Vérifié sur les robots (bras de robots, véhicules sans pilote)

**VMP (planification de mouvements vidéo)**
- Utiliser des modèles de génération vidéo pour la planification de mouvements
- Générer des images futures → extraire des vecteurs de mouvement → contrôler le drone

---

## 6. Sécurité et authentification

### 6.1 Pourquoi la sécurité est essentielle

Lorsque les drones volent dans les villes, une mauvaise prise de décision peut causer des **victimes humaines**. Il existe une contradiction fondamentale entre les résultats probabilistes du LLM et les garanties déterministes requises par la sécurité aérienne.

### 6.2 Cadre de sécurité

**CBF（Fonctions de barrière de contrôle）：**
- ASMA présente CBF au drone VLN
- S'assurer que l'état dangereux n'est jamais accessible

**Vérification formelle：**
- Utilisez TLA+ / NuSMV pour la vérification de la machine d'état
- Les résultats de la planification LLM sont exécutés après vérification du modèle

**Blindage :**
- Protecteur de couche inférieure (Shield) : surveille la sortie LLM et intercepte les actions dangereuses
- LLM de niveau supérieur : concentrez-vous sur l'achèvement des tâches et ne tenez pas compte des détails de sécurité
- **Architecture "Ange Gardien" de conduite autonome**

---

## 7. Points chauds frontaliers et orientations futures

### 7.1 VLA de bout en bout (Vision-Langage-Action)

**Dernière tendance :** Évitez la conception hiérarchique « détection → planification → contrôle » et générez un **jeton d'action** directement à partir de VLM.

Travail représentatif :
- **RT-2** (Google Robotics) : Affinez directement l'action de sortie de VLM
- **π₀** (Intelligence Physique) : VLA pour robots humanoïdes
- **Version UAV** (émergente) : idées similaires appliquées aux drones

**Défi :**
- Continuité de l'espace d'action vs discrétion du langage
- Difficulté de vérification de sécurité (boîte noire de bout en bout)
- Pénurie de données (nécessite des données de téléopération robot à grande échelle)

### 7.2 Planification LLM collaborative multi-machines

**SysNav (arXiv, mars 2026)****Article :** *SysNav : La coopération systématique à plusieurs niveaux permet la navigation d'objets dans le monde réel et entre modes de réalisation*
**Auteur :** Haokun Zhu et al.
**Source :** arXiv :2603.xxxxx, mars 2026

**Contribution de base :**
- Navigation collaborative multi-agents sur différentes plateformes robotiques
- LLM fait une coordination de haut niveau (qui va dans quelle zone)
- Fusion de perception distribuée (chaque agent partage la vision)

### 7.3 Intelligence physique × UAV

- **Modèles de base pour la manipulation** → **Modèles de base pour le vol**
- Un modèle de pré-entraînement dédié au "cerveau UAV" pourrait apparaître dans le futur
- Similaire à LLaVA mais spécialisé dans le raisonnement spatial 3D + dynamique de vol

---

## 8. Résumé et suggestions

| Dimensions | Meilleur actuel | Orientations futures |
|------|---------|---------|
| Paradigme de planification | Architecture à double processus (réalisable en temps réel) | VLA de bout en bout (objectif à long terme) |
| Connaissance du monde | RAG (fiable mais lent) | Modèle mondial (rapide mais nécessite une formation) |
| Sécurité | CBF + Blindage | Vérification formelle (entièrement garantie) |
| Déploiement périphérique | LLaVA 4 bits (à peine en temps réel) | Puces à usage spécial (NPU/TPU) |

**Conseils pour vous :**
1. **Le chemin le plus rapide vers les résultats** : architecture à double processus + LLaVA-7B + plateforme UAV
2. **La plus grande marge d'innovation** : VLM + cadre de vérification de sécurité (presque personne ne le fait actuellement)
3. **Disposition à long terme** : collectez vos propres données de contrôle de drone et entraînez un modèle VLA dédié

---

## 📚 Références1. Lee et coll. *Une architecture à double processus pour la navigation intérieure basée sur VLM en temps réel*. arXiv : 2601.19401, 2026.
2. Fernando et coll. *GenerativeMPC : MPC du corps entier guidé par VLM-RAG avec impédance virtuelle*. arXiv, 2026.
3. Huang et coll. *VoxPoser : cartes de valeurs 3D composables pour la manipulation robotique avec des modèles de langage*. arXiv :2307.05973, 2023.
4. Brohan et coll. *RT-2 : Les modèles Vision-Langage-Action transfèrent les connaissances du Web vers le contrôle robotique*. arXiv, 2023.
5. Zhu et coll. *SysNav : la coopération systématique à plusieurs niveaux permet une navigation d'objets dans le monde réel et entre modes de réalisation*. arXiv, 2026.
6. Ahn et coll. *Faites ce que je peux et pas ce que je dis : ancrer le langage dans les moyens robotiques*. arXiv, 2022.