Paper E Experimental Task Book v2 : Vérification et correction d’erreurs Planification du langage UAV pour AAAI

Ce fichier utilise toujours le nom de fichier paper-e-vera-uav-experiment-taskbook-v1-20260517.md car ce tour nécessite une “modification directe sur la version V1”. Le texte, le titre et les notes de version ont tous été mis à niveau vers v2. Cet article n’est pas une ébauche finale, mais un énoncé de tâche expérimentale exécutable : clarifier le positionnement de recherche de l’article E, les documents réels citables, les solutions algorithmiques, la construction de données, les expériences comparatives, les expériences d’ablation, les indicateurs d’évaluation, les limites théoriques d’exhaustivité et les plans de promotion AAAI/T-ITS ultérieurs. L’accent supplémentaire sur le 19/05/2026 est : la prévention des fuites de données, la taxonomie des échecs, la budgétisation des paramètres, les formules d’indicateurs, la planification des graphiques et les risques de conformité AAAI.

1. Contexte et objectifs de la recherche

La planification des missions urbaines de drones à basse altitude passe des « itinéraires prédéfinis par l’ingénieur » à des « itinéraires axés sur la mission en langage naturel ». Dans les applications réelles, les opérateurs sont plus susceptibles de donner les instructions suivantes :

“Vérifiez d’abord la façade est du bâtiment 3, puis rendez-vous au point d’atterrissage sur le toit et attendez.”
“Évitez l’air au-dessus de l’hôpital et atteignez la zone d’accouchement temporaire dans les 30 secondes.”
“Si le couloir sud est occupé, contourner le couloir ouest mais garder une distance de sécurité supérieure à 20 mètres partout.”

Ces instructions incluent simultanément la compréhension sémantique, l’ordre temporel, les contraintes spatiales, la sécurité continue de la trajectoire et les jugements d’accessibilité. Les grands modèles linguistiques (LLM) sont efficaces pour comprendre le langage naturel et générer des plans candidats, mais ils ne peuvent pas garantir que le plan de sortie soit exécutable dans l’espace physique, ni garantir que les contraintes de sécurité aérienne soient respectées. Les méthodes formelles sont efficaces pour donner une sémantique vérifiable, telle que la logique temporelle linéaire (LTL) et la logique temporelle du signal (STL), mais les spécifications manuscrites directes nécessitent des connaissances professionnelles et sont difficiles à servir aux opérateurs non experts.

Les travaux existants ont prouvé que la traduction du langage naturel vers LTL peut réduire considérablement le seuil d’écriture des spécifications des tâches du robot. Par exemple, Lang2LTL convertit les commandes de navigation complexes en LTL et effectue une évaluation de généralisation dans des environnements invisibles [1] ; NL2LTL fournit un package Python open source du langage naturel au LTL [2] ; LTLCodeGen utilise la génération de code pour améliorer l’exactitude grammaticale de LTL et l’intègre dans la planification du chemin du robot [3] ; ConformalNL2LTL tente en outre d’utiliser la prédiction conforme pour garantir l’exactitude de la traduction [4]. Ces travaux constituent une base importante pour cette étude.Mais pour les scénarios de drones à basse altitude, il ne suffit pas d’effectuer une simple conversion NL vers LTL. Les missions de drones ont trois exigences supplémentaires :

Contraintes de sécurité continues : Les contraintes telles que l’altitude de vol, la vitesse, la distance d’obstacle, la fenêtre temporelle, etc. sont naturellement des contraintes sur les signaux continus et sont plus adaptées pour être évaluées par la robustesse STL.
Boucle fermée de trajectoire exécutable : Des spécifications correctes ne signifient pas que la trajectoire est réalisable et doivent être vérifiées par des cartes, des dynamiques et des planificateurs.
Les erreurs peuvent être corrigées : les erreurs LLM doivent non seulement être jugées comme des erreurs, mais doivent être converties en contre-exemple ou en retour de robustesse par le vérificateur, puis conduire à la correction LLM.

Par conséquent, cet article propose VERA-UAV : un cadre de planification neuro-symbolique de vérification et de correction d’erreurs pour les tâches en langage naturel des drones. La version AAAI donne la priorité à la réponse à une question centrale :

Étant donné une mission de drone en langage naturel, comment un LLM open source natif peut-il générer des spécifications et des trajectoires de mission LTL/STL vérifiables, réparables et exécutables, plutôt que de simplement générer des plans textuels qui semblent raisonnables mais dont la sécurité n’est pas prouvée ?

La version principale de la conférence AAAI se concentre sur la planification de l’IA, la vérification neuro-symbolique et l’auto-réparation LLM. Le contenu au niveau du système tel qu’AirSim, la véritable logistique à basse altitude et le débit de l’espace aérien multi-UAV sera intégré dans les versions étendues ultérieures du T-ITS.

2. Définition du problème et hypothèses de base

2.1 Entrée et sortie

Étant donné une instance de tâche UAV :

Parmi eux, est l’instruction de tâche en langage naturel, est la carte urbaine à basse altitude avec annotation sémantique et est l’état initial du drone. La carte contient les bâtiments, les zones d’exclusion aérienne, l’espace aérien praticable, les points d’atterrissage, les cibles d’inspection, les obstacles dynamiques et les niveaux d’altitude.

Sortie système :

\varphi_{\text{LTL}} = G(\neg collision) \wedge F(reach(goal)) \wedge G(\neg enter(no_fly_zone))

é

\varphi_{\text{STL}} = G_{[0,T]}(d_{\text{obs}}(t) \ge d_{\min}) \coin G_{[0,T]}(h_{\min} \le h(t) \le h_{\max}) \coin F_{[0,30]}(atteindre(objectif))

ù é

Indique que la trajectoire satisfait la spécification ; si , le vérificateur renvoie la clause de violation, le temps de violation et la marge de sécurité minimale.

4.4 Réparation du pilote de contre-exemple

Au lieu de simplement renvoyer « réussite/échec », le validateur renvoie un diagnostic structuré :

{
  "status": "FAILED",
  "stage": "STL_ROBUSTNESS",
  "violated_clause": "G[0,T](distance_to_obstacle >= 10)",
  "counterexample_trace": [
    {"t": 14.2, "x": 38, "y": 51, "z": 30, "distance_to_obstacle": 6.4}
  ],
  "robustness": -3.6,
  "repair_hint": "Increase safety margin or route around building_7 west side."
}

L’invite de réparation de LLM ne nécessite pas de jeu libre, mais nécessite uniquement la modification des champs pertinents dans TaskIR :

你生成的 TaskIR 在 STL 验证中失败。
失败子句：G[0,T](distance_to_obstacle >= 10)
反例：t=14.2s 时距离 building_7 仅 6.4m。
请只修改 route constraint 或 safety margin，不要改变用户原始目标。
输出新的 TaskIR JSON。

L’objectif de cette conception est de réduire l’espace de recherche de LLM et de rendre le comportement de réparation explicable, enregistrable et reproductible.

Si la réparation LLM échoue après des tours consécutifs, le repli de l’énumération des symboles est entré. La portée de l’énumération est délimitée par la profondeur DSL de TaskIR, l’ensemble d’entités de carte, le modèle de contrainte autorisé et l’horizon de tâche maximal. L’enquêteur donne la priorité à l’expansion des champs les plus pertinents en fonction des résultats du diagnostic, tels que la distance de sécurité, le côté du détour, la fenêtre temporelle, la séquence cible et l’aire d’atterrissage de repli.

4.5 Génération de trajectoire

La version AAAI utilise un générateur de trajectoire léger et reproductible :

Grille 2D A* : pour les tâches de base à éviter et séquentielles.
Grille 3D A* : utilisée pour les niveaux d’altitude et les corridors urbains de basse altitude.
RRT* : pour une vérification supplémentaire spatiale continue.
MPC-lite/lissage de trajectoire : utilisé pour vérifier si le rayon de braquage, le changement de vitesse et le changement de hauteur satisfont aux contraintes dynamiques simplifiées.

Le générateur de trajectoire n’est pas l’innovation de cet article. Sa fonction est de faire progresser le problème de traduction des spécifications jusqu’au niveau de « si la piste exécutable existe réellement ».

5. Preuve des propriétés théoriques et de l’exhaustivité relative

La v1 indique uniquement que “la correction des erreurs de vérification peut améliorer la fiabilité”, mais il n’y a pas de limite mathématique. La v2 clarifie les propriétés algorithmiques : VERA-UAV ne prétend pas que le LLM lui-même est complet, mais prétend plutôt avoir une exhaustivité relative sous les hypothèses d’un DSL fini, d’un vérificateur décidable et d’un planificateur sous-jacent complet.

5.1 Cadre formel

Discrétiser la carte urbaine de basse altitude en une carte pondérée limitée :

Double subscripts: use braces to clarifyG=(V,E,w), \quad |V|<\infty, \quad |E|<\infty. $$Chaque nœud $v\in V$ transporte un ensemble de propositions atomiques $L(v)$, telles que `goal_A`, `building_7_margin`, `no_fly_zone`, `altitude_layer_3`. Les trajectoires sont des séquences finies :

\tau = (v_0, v_1, \ldots, v_T), \quad (v_t,v_{t+1})\in E.

é é

\mathcal{D}_{H,D} = {\psi : \mathrm{profondeur}(\psi)\le D,\ \mathrm{horizon}(\psi)\le H,\ \mathrm{entities}(\psi)\subseteq \mathcal{E}(\mathcal{M})}.

é

C(\psi)=(\varphi_{\mathrm{LTL}},\varphi_{\mathrm{STL}}).

é é é é

V(\tau, C(\psi)) = \begin{cas} \mathrm{PASS}, & \tau \models \varphi_{\mathrm{LTL}}\ \land\ \rho(\tau,\varphi_{\mathrm{STL}})>0,\ \mathrm{ÉCHEC}(\eta), & \text{sinon}, \fin{cas}

You can't use 'macro parameter character #' in math mode où $\eta$ est un contre-exemple, un noyau non saturé ou une trace de robustesse. ### 5.2 Pseudocode de l'algorithme ```text Algorithm VERA-UAV Input: natural language x_NL, map M, initial state s0 Output: verified trajectory tau or UNSAT / NEED_CLARIFICATION 1: Q ← LLM_PROPOSE(x_NL, M) 2: Q ← TYPECHECK_AND_RANK(Q) 3: Visited ← ∅ 4: for iter = 1 ... B do 5: if Q has no unvisited candidate: 6: Q ← Q ∪ SYMBOLIC_ENUMERATE_NEXT(D, H) 7: if Q still has no unvisited candidate: 8: return UNSAT 9: ψ ← POP_UNVISITED(Q, Visited) 10: Visited ← Visited ∪ {ψ} 11: if ψ has missing entity or underspecified field: 12: η ← type / grounding diagnostic 13: Q ← Q ∪ REPAIR(ψ, η) 14: if all remaining candidates require the same external information: 15: return NEED_CLARIFICATION 16: continue 17: (φ_LTL, φ_STL) ← COMPILE(ψ) 18: if compiler or syntax verifier fails: 19: η ← compiler diagnostic 20: Q ← Q ∪ REPAIR(ψ, η) 21: continue 22: τ ← COMPLETE_PLANNER(G, s0, φ_LTL, φ_STL) 23: if τ exists and VERIFY(τ, φ_LTL, φ_STL) = PASS: 24: return τ 25: η ← counterexample / unsat core / robustness trace 26: Q ← Q ∪ LLM_REPAIR(ψ, η) 27: if LLM repair budget exhausted: 28: Q ← Q ∪ SYMBOLIC_ENUMERATE(ψ, η, D, H) 29: return UNSAT ``` ### 5.3 Théorème 1 : Terminabilité **Théorème 1 (Terminaison).** Si le TaskIR DSL $\mathcal{D}_{H,D}$ est fini et que l'algorithme définit un budget candidat fini $B$, alors VERA-UAV doit renvoyer une trajectoire vérifiée, `UNSAT` ou `NEED_CLARIFICATION` par étapes finies.**Croquis de preuve.** Chaque fois qu'un candidat TaskIR non visité apparaît dans la file d'attente $Q$, et est utilisé pour éviter une expansion répétée via « Visité ». Le nombre maximum de tours de réparation LLM est limité, l'espace d'énumération des symboles $\mathcal{D}_{H,D}$ est limité et la boucle externe peut être exécutée au plus $B$ fois. L’algorithme ne peut donc pas fonctionner indéfiniment. Chaque branche renvoie ou entre dans la boucle finie suivante. Certification terminée. ### 5.4 Théorème 2 : Sécurité et fiabilité **Théorème 2 (solidité).** Si VERA-UAV renvoie une trajectoire $\tau$, alors étant donné le modèle de carte, la sémantique du moniteur et la précision de discrétisation de la trajectoire, $\tau$ satisfait la spécification LTL/STL compilée :

\tau \models \varphi_{\mathrm{LTL}} \quad \text{et} \quad \rho(\tau,\varphi_{\mathrm{STL}})>0.

\mathrm{FSR} = \frac{#{\mathrm{incertain\ mais\ renvoyé\ comme\ exécutable}}}{#{\mathrm{tous\ renvoyé\ exécutable}}}.

You can't use 'macro parameter character #' in math mode Dans le document de l’AAAI, le FSR doit être considéré comme l’indicateur négatif le plus critique en matière de sécurité. Le principal argument de vente du VERA-UAV n'est pas d'avoir un « rendement » pour toutes les tâches, mais d'éviter une fausse sécurité. **Test statistique** - Pour les indicateurs binaires tels que la détection ESS, FSR et UNSAT, utilisez le test McNemar apparié. - Pour les indicateurs continus tels que la robustesse, l'écart d'optimalité, le temps d'exécution, etc., utilisez le bootstrap apparié IC à 95 % et le test de rang signé de Wilcoxon. - Plusieurs comparaisons de base utilisent la correction Holm-Bonferroni. - Les conclusions ne sont écrites dans le texte principal que lorsque $p<0,05$ et que la taille de l'effet atteint le seuil de pré-enregistrement. **Critères de réussite** Les conditions minimales pour l’établissement de la conclusion principale de l’AAAI :1. L'ESS du VERA-UAV complet est nettement supérieur à celui de la ligne de base de style LTLCodeGen et de style T3. 2. Le FSR du VERA-UAV complet est nettement inférieur à celui de toutes les références LLM uniquement. 3. Après suppression du feedback de robustesse STL, les défaillances liées aux contraintes de sécurité continues augmentent considérablement. 4. Le repli symbolique fournit des gains mesurables dans les échantillons d'échec de réparation LLM. ### 8.4 Expérience de généralisation Dimension de généralisation : - Aucune carte vue. - Aucun nom d'entité vu. - Paraphrase en langage naturel. - Combinaisons de timing plus longues. - Fenêtre temporelle plus serrée. - Augmentation du taux de tâches insatisfaites. Les expériences de généralisation se concentrent sur la question de savoir si VERA-UAV peut identifier des tâches insatisfaisantes ou ambiguës, plutôt que sur la production de trajectoires d'erreur. ### 8.5 Étude de cas Préparez au moins trois cas de visualisation : 1. **Cas de réparation de syntaxe** : la sortie LLM est un STL illégal, Spot/RTAMT signale une erreur, réparation du système. 2. **Cas de sécurité de la trajectoire** : LTL est satisfait mais la robustesse STL est négative et le système devient positif après un détour. 3. **Cas insatisfaisant** : les exigences de l'utilisateur sont contradictoires et le système affiche « UNSAT ». ### 8.6 Plan de graphique de texte principal AAAI L'espace de texte principal de l'AAAI est très restreint et les graphiques doivent servir l'argument principal. Il est recommandé que seuls cinq types de graphiques soient inclus dans le texte principal, et des annexes sont utilisées pour les autres :| Diagramme | Cible | Placement | |------|------|----------| | Figure 1 : Pipeline VERA-UAV | Un coup d'œil sur la boucle fermée des IR tapés, de la vérification, de la réparation et du repli | Méthode | | Tableau 1 : Matrice de positionnement de la littérature de base | Prouve que cet article n'est pas une simple application NL-to-LTL | Travaux connexes | | Tableau 2 : Principaux résultats de l'expérience | comparaison appariée de ESS, FSR, robustesse, runtime | Expériences | | Figure 2 : graphique empilé de taxonomie des échecs | illustre les types de défaillances que la méthode réduit principalement | Expériences | | Figure 3 : Parcours de l'étude de cas | Montre comment les commentaires contre-exemples peuvent corriger la robustesse négative en positive | Expériences / Annexe | Il n'est pas recommandé d'agrandir la section d'invite, la grammaire DSL complète ou toutes les captures d'écran de la carte dans l'article principal. Ces contenus doivent être placés dans l'annexe code/données afin de ne pas évincer l'argument de contribution. --- ## 9. Conception d'expériences d'ablation| Ablation | Variante | Objectif | |--------|------|------| | Supprimer l'IR tapé | Génération directe LTL/STL | Vérifier si la représentation intermédiaire structurée améliore la fiabilité | | Supprimer les commentaires contre-exemples | Nouvelle tentative générique | Vérifier si le contre-exemple est plus efficace que la nouvelle tentative normale | | Supprimer les commentaires sur la robustesse STL | Vérification LTL uniquement | L'importance de vérifier les contraintes de sécurité en continu | | réparation en un seul coup | Réparer au maximum 1 fois | Évaluer les avantages des tournées de réparation | | réparation itérative | Réparer jusqu'à 3 fois | Évaluer la limite supérieure de plusieurs cycles de réparation | | Différentes tailles de modèles | Qwen3-8B / Qwen3-14B / DeepSeek-R1-Distill-Qwen-14B | Évaluer la relation entre la capacité du modèle et le cadre de vérification | | Supprimer la détection UNSAT | Forcer la génération de traces | Vérifier la contribution de la capacité de refus de réponse à la sécurité | | Supprimer le symbole de secours | Réparation LLM uniquement | Vérifier la contribution des composants d'exhaustivité relative à la reprise après incident | | Supprimer la vérification finale du planificateur | Vérifiez uniquement les formules mais pas les trajectoires | Prouver que l'exécution d'une boucle fermée n'est pas facultative | Le cœur de l'expérience d'ablation n'est pas de « prouver que les composants sont efficaces », mais de découvrir quels composants contribuent le plus aux indicateurs de sécurité et de performance qui préoccupent le plus les évaluateurs de l'AAAI. --- ## 10. Indicateurs d'évaluation ### 10.1 Indicateurs de génération de spécifications| Indicateurs | Définition | |------|------| | Validité de la syntaxe | LTL/STL est-il acceptable pour l'analyseur | | Précision de la mise à la terre de l'entité | Si l'entité de commande est correctement mappée à l'entité de carte | | Sémantique F1 | Générer précision/rappel/F1 du champ TaskIR et or TaskIR | | Correspondance sémantique | Si la spécification générée est équivalente ou approximativement équivalente à la formule Gold TaskIR / Gold | | Précision de détection UNSAT | Si la tâche insatisfaisante est correctement identifiée | | Précision des clarifications | Si la tâche floue déclenche `NEED_CLARIFICATION` | | Taux de faux exécutables | La proportion de tâches insatisfaisantes ou ambiguës qui sont mal exécutées | ### 10.2 Indicateurs d'exécution de la planification | Indicateurs | Définition | |------|------| | ESS | Proportion de tâches qui satisfont simultanément à la sémantique, aux trajectoires réalisables, au LTL, au STL et aux contraintes de sécurité | | FRS | Proportion de tâches dangereuses marquées à tort comme étant sûres à exécuter | |Robustesse moyenne STL |La robustesse moyenne de la trajectoire finale par rapport à la spécification STL | | Robustesse STL dans le pire des cas | Répartition de la robustesse minimale par trajectoire | | Marge minimale de sécurité | Distance minimale d'obstacle dans la trajectoire | | Écart d'optimalité | $(J(\tau)-J^\star)/J^\star$ | | Longueur du trajet / temps de vol | Coût de la trajectoire et temps de vol | ### 10.3 Indicateur d'efficacité des réparations| Indicateurs | Définition | |------|------| | Taux de réussite des réparations | Taux de réussite des réparations après échec de la vérification | | Conversion échouée | La proportion d'échantillons initiaux défectueux qui réussissent après avoir été réparés | | Tours de réparation moyens | Tours de réparation moyens | | Contribution de secours | Proportion d'échec de réparation LLM mais succès de repli symbolique | | Frais généraux d'exécution | Temps supplémentaire causé par le mécanisme de réparation | | Frais généraux de jeton | Correction de l'incrément de jeton provoqué par l'invite et le diagnostic | ### 10.4 Détails du calcul de l'indicateur L'expérience principale doit implémenter les indicateurs suivants directement dans le code pour éviter toute disposition manuelle pendant la phase de rédaction du papier : **F1 sémantique** Aplatissez TaskIR en un ensemble de contraintes au niveau du champ $\mathcal{C}$, telles que `reach(A)`, `avoid(zone_B)`, `time_window(A,30)`. Supposons que l'ensemble de prédictions soit $\hat{\mathcal{C}}$ et que l'ensemble de référence soit $\mathcal{C}^\star$ :

P = \frac{|\hat{\mathcal{C}}\cap \mathcal{C}^\star|}{|\hat{\mathcal{C}}|}, \quad R = \frac{|\hat{\mathcal{C}}\cap \mathcal{C}^\star|}{|\mathcal{C}^\star|}, \quad F1 = \frac{2PR}{P+R}.

à é é

\mathrm{SVR} = \frac{#{\tau : collision \lor nofly \lor altitude_violation \lor \rho(\tau,\varphi_{\mathrm{STL}})\le 0}} {#{\mathrm{trajectoires retournées}}}.

É é û

\mathrm{Gap}(\tau)=\frac{J(\tau)-J^\star}{\max(J^\star,\epsilon)}.

â é é é é é é é é é

\mathrm{FailToPass} = \frac{#{\mathrm{initial\ échec,\ final\ réussite}}} {#{\mathrm{initial\ fail}}}, \quad \mathrm{Contribution de repli} = \frac{#{\mathrm{LLM\ réparation\ échec,\ symbolique\ secours\ réussite}}} {#{\mathrm{final\ pass}}}.