Article G1 Proposition d’article complète v1 : Agent LLM vérifiable pour le cerveau des nuages de trafic à basse altitude

Jugement principal : le premier article ne doit pas être rédigé comme “le réglage fin d’un grand modèle de trafic à basse altitude”, mais doit être rédigé comme un document de méthode d’agent LLM de trafic à basse altitude vérifiable, reproductible et déployable.
Sujet recommandé : CloudBrain-Agent : agents LLM améliorés par des outils et guidés par la vérification pour l’exploitation du trafic à basse altitude.

1. Positionnement du papier et jugement de soumission

1.1 Positionnement en une phrase

Cet article étudie le grand agent modèle dans le cerveau du nuage de trafic à basse altitude : étant donné une tâche en langage naturel, l’état de l’espace aérien urbain à basse altitude, l’état de la flotte d’UAV et les contraintes de sécurité, comment l’agent LLM peut générer des décisions d’exploitation de trafic à basse altitude sûres, exécutables et interprétables grâce à une représentation intermédiaire structurée, à l’invocation d’outils, à une vérification formelle et à un retour de simulation.

1.2 Contributions recommandées

Préféré : Maître AAAI/IJCAI.
Alternatives : AAMAS, atelier IROS/ICRA, suivi de l’expansion du T-ITS.

Selon le moment du 20/05/2026, la session spécifique doit être alignée sur le prochain cycle de CFP AAAI/IJCAI ; cet article est toujours conçu dans le style de la conférence principale AAAI/IJCAI, car l’AAAI met l’accent sur les méthodes d’IA, les domaines d’application et la reproductibilité, et le parcours IJCAI-ECAI IA et robotique se concentre clairement sur les agents robots, l’IA générative, le raisonnement, la modélisation structurée et les conséquences des actions [1] [2].

1.3 Pourquoi cet article est-il plus approprié à faire en premier que « Réglage fin du grand modèle de trafic à basse altitude »

Le réglage fin direct d’un LowAltitudeGPT se heurtera à trois risques de révision :

LoRA, QLoRA et DPO sont des paradigmes de formation déjà matures. Le simple fait de changer les données du domaine ne suffit pas à constituer la principale contribution [3] [4] [5].
Le trafic à basse altitude est un système critique pour la sécurité, et il est difficile de convaincre les évaluateurs que le LLM génère directement des actions de contrôle.
Les données réelles sur les opérations de circulation à basse altitude sont rares. Si vous vous concentrez sur la « formation sur de grands modèles » dans le premier article, vous serez interrogé sur l’échelle des données, le budget de formation et la nouveauté du modèle.Par conséquent, le premier article devrait se concentrer sur Agent + Outils + Vérificateur + Commentaires sur le simulateur. Le grand modèle n’est pas le contrôleur final, mais une couche de compréhension des tâches, d’orchestration des outils, de réparation des contre-exemples et d’interprétation. Ce paramètre est naturellement lié aux travaux d’utilisation d’agents/d’outils/de planification tels que ReAct, ToolLLM, LLM+P [6] [7] [8], et peut également rattraper la discussion de TrafficGPT sur l’interaction entre le modèle de base du trafic et LLM [9].

1.4 2026-05-22 Écriture de calibrage : n’écrivez pas G1 comme une histoire TR-C, mais conservez les preuves du système de trafic

Le premier investissement dans G1 est AAAI/IJCAI, la principale contribution doit donc être la méthode des agents IA plutôt que le récit du système de type journal de transport. Une façon plus précise de l’écrire est :

CloudBrain-Agent est une méthode d’agent IA évaluée dans un domaine de trafic à basse altitude critique pour la sécurité.

En d’autres termes, la scène du trafic présente de réelles difficultés et contraintes de sécurité, mais l’article doit encore répondre à des questions dans le domaine des agents : si l’appel de l’outil est fiable, si l’état est cohérent, si la réparation du contre-exemple est efficace, si le modèle est une illusion et si l’évaluation est reproductible.

Dans le même temps, G1 ne peut pas uniquement signaler « task_success » et « tool_call_accuracy ». Le trafic à basse altitude étant une zone critique pour la sécurité, les preuves du système de circulation doivent être préservées dès la première version de l’expérience :| Niveau | Thème principal du texte AAAI/IJCAI | Suivi de l’expansion des T-ITS | |------|---------------------|-------------------------| | Capacités des agents | Validité IR, précision des appels d’outils, réussite des réparations, taux d’hallucinations | confirmation humaine, charge de travail de l’opérateur, cohérence avec état | | Sécurité | violation de la sécurité, violation de la NFZ, violation de la batterie | Proxy LoWC/NMAC, rapport de risque, dégradation météo/communication | | Efficacité | décision exécutable, latence, runtime | délai, distance supplémentaire, énergie, débit | | Généralisation | ville invisible, stress, UNSAT/tâches ambiguës | couloir à haute densité, drone non coopératif, perte de communication, division de la ville dans un contexte réel | | Illumination du système | Quand le feedback du vérificateur est-il nécessaire | Quels scénarios doivent être renvoyés par le solveur déterministe/superviseur humain de l’agent LLM |

Les conditions aux limites de G1 doivent donc s’écrire clairement :

Ne prétendent pas à un véritable déploiement ;
Ne revendique pas un contrôle automatique de bout en bout ;
LLM n’est pas censé être un planificateur/planificateur/validateur de remplacement ;
affirme uniquement que l’agent LLM est responsable de la compréhension, de l’orchestration, de la réparation et de l’interprétation des tâches dans la chaîne d’outils et des retours de vérification ;
Les conclusions sur le système de transport sont uniquement rédigées sous forme d‘“implications opérationnelles observables” et ne sont pas exagérées sous forme de recommandations politiques.

1.5 2026-05-23 Compilation : liste figée des versions de soumission

La première version de la soumission G1 doit geler trois revendications pour éviter de se transformer en une spécification de plate-forme à basse altitude :1. Benchmark d’utilisation des outils basés sur le domaine : CloudBrain-Bench teste non seulement le format JSON, mais teste également la sélection des fonctions, la mise à la terre des paramètres, la dépendance de l’état, la conformité aux politiques et la cohérence à plusieurs niveaux dans la chaîne de transport à basse altitude. 2. Réparation guidée par le vérificateur : les erreurs de sécurité, les erreurs inexécutables et les tâches ambiguës dans les missions de trafic à basse altitude doivent être converties en signaux de réparation structurés via le vérificateur LTL/STL, le planificateur d’itinéraire et les commentaires du simulateur. 3. Implémentation d’un agent déployable localement : L’expérience principale doit être reproductible sur le modèle open source local, et le modèle API ne sert que d’enseignant ou de limite supérieure.

La première partie doit être complétée :| Modules | Exigences de gel | |------|----------| | Faible AltitudeIR | Schéma fixe, vérificateur de type, codes d’erreur et exemples JSON | | Outils | Au moins 6 : requête d’espace aérien, état de la flotte, affectation, planificateur d’itinéraire, vérificateur LTL/STL, simulateur de scénario/estimateur de risques | | CloudBrain-Banc | dev/validation/test/stress split, couvrant les scénarios de stress SAT, UNSAT, ambigus, à ressources limitées | | Lignes de base | Direct LLM, JSON uniquement, ReAct, LLM+P / planificateur uniquement, utilisation d’outils sans vérificateur, CloudBrain complet | | Métriques | réussite de la tâche, précision des appels d’outil, décision exécutable, violation de la sécurité, réussite de la réparation, taux d’hallucinations, latence/coût | | Ablation | pas d’IR, pas de vérificateur, pas de simulateur, pas de réparation, professeur API vs modèle local | | Couche de données | données de base synthétiques + champs de contexte réel OSM/FAA/OD/SUMO, n’écrivez pas de données réelles en tant que système déployé |

Le premier contenu suspendu :

Production complète du MCP ;
La collaboration multi-agents comme contribution principale ; -Écrire le modèle de réglage fin LowAltitudeGPT comme méthode principale ;
Déploiement ou vol réel d’un drone ;
Proposition VLA/modèle mondial/AGI incarné.

La fonction de cette liste figée est de contrôler les limites de l’article : G1 prouve seulement qu’un « agent LLM vérifiable dans le domaine clé de la sécurité du trafic à basse altitude » est établi, et les G2/G3/G4 ultérieurs traiteront respectivement du réglage fin, de l’expansion multi-agents et incarnée.

---## 2. Projet de résumé

Les opérations de trafic urbain à basse altitude nécessitent une prise de décision en temps réel entre les tâches dynamiques, les ressources limitées de l’espace aérien, les contraintes de statut des drones et les règles de sécurité. Les grands modèles de langage ont la capacité de comprendre le langage naturel et de décomposer des tâches complexes, mais s’ils sont utilisés directement pour la planification des drones et la planification de trajectoire, ils produiront des hallucinations, des plans inexécutables et des violations de la sécurité. Cet article propose CloudBrain-Agent, un cadre d’agent LLM d’amélioration et de guidage de vérification pour le cerveau des nuages de trafic à basse altitude. CloudBrain-Agent analyse les tâches en langage naturel et les états du système en « LowAltitudeIR » typé, invoque une requête d’espace aérien, l’allocation d’UAV, la planification de trajectoire, la vérification LTL/STL, des outils de simulation de scénario et d’évaluation des risques, et corrige de manière itérative les décisions à l’aide de contre-exemples de vérificateurs et de commentaires de simulation. Nous construisons CloudBrain-Bench pour couvrir la distribution d’urgence, les inspections, l’évitement des zones d’exclusion aérienne, la congestion des couloirs, les goulots d’étranglement de recharge, le repli multimode et les tâches insatisfaisantes. L’expérience comparera le LLM direct, ReAct avec invite uniquement, l’utilisation d’outils sans vérification, LLM+P, l’orchestration de style TrafficGPT et CloudBrain-Agent complet. L’attente de pré-enregistrement est que CloudBrain-Agent surpasse considérablement les références d’invite uniquement et d’outils uniquement en termes de réussite des tâches, de taux de décision exécutable, de taux de violation de la sécurité, de taux d’hallucinations et de réussite des réparations, tout en maintenant une latence de déploiement local acceptable.

3. Questions de recherche et hypothèses principales

3.1 Questions de recherche

RQ1 : L’agent LLM peut-il générer de manière stable des chaînes de décision du bon type et exécutables par un outil dans les missions de trafic à basse altitude ?

RQ2 : La vérification formelle et les retours de simulation peuvent-ils réduire considérablement les plans non exécutables, les violations de sécurité et les hallucinations en LLM ?

RQ3 : Par rapport à l’ajustement direct du modèle vertical, la solution LLM générale + IR typée + MCP/outils + vérificateur peut-elle former un système de recherche reproductible, déployable et évolutif plus rapidement ?RQ4 : Le modèle open source local peut-il s’approcher des performances du modèle source fermée grâce aux commentaires sur les données et les règles générés par l’API de l’enseignant, et prendre en charge l’article LowAltitudeGPT ultérieur ?

3.2 Hypothèses fondamentales

H1 : la saisie de « LowAltitudeIR » peut améliorer considérablement la qualité de sortie structurée et la précision des appels d’outils.
H2 : La réparation guidée par vérification peut améliorer considérablement le taux de décision exécutable et réduire le taux de violation de la sécurité.
H3 : Le retour d’information du simulateur est le plus critique pour la généralisation de scènes dangereuses invisibles.
H4 : Il n’est pas nécessaire de former le modèle de fondation verticale dans un premier temps ; le modèle général + la couche d’outils d’agent + le post-traitement du vérificateur suffisent pour compléter le document G1.
H5 : Une fois le modèle local Qwen3 / DeepSeek-R1-Distill déployé via vLLM, il peut être utilisé comme modèle expérimental principal reproductible ; Les modèles d’API tels que GPT-5.2 servent d’enseignants et de limites supérieures de performances [10] [11] [12].

4. Conception de la contribution papier

Il est recommandé que la contribution finale de l’article soit rédigée en trois articles pour éviter d’être dispersée :

Cadre CloudBrain-Agent Un agent LLM typé utilisant un outil est proposé pour le cerveau des nuages de trafic à basse altitude, qui unifie les tâches en langage naturel, l’état de l’espace aérien urbain, l’état de la flotte d’UAV et les contraintes de sécurité dans « LowAltitudeIR ».
Réparation guidée par vérification pour le trafic à basse altitude Transformez les retours d’échec des vérificateurs LTL/STL, des planificateurs d’itinéraires et des simulateurs en contre-exemples structurés qui pilotent les appels d’outils de réparation LLM, les contraintes de tâches et les recommandations de chemin/planification.3. CloudBrain-Bench et protocole d’évaluation Créez une référence cérébrale pour les nuages de trafic à basse altitude, couvrant des indicateurs tels que la précision des appels d’outils, les décisions exécutables, les violations de sécurité, le succès des réparations, la généralisation, la latence et la confiance humaine.

Il n’est pas recommandé d’écrire la contribution sous la forme « Nous avons formé un grand modèle de trafic à basse altitude ». Un réglage fin peut être effectué comme une extension expérimentale ou comme le prochain G2.

4.1 Matrice de positionnement du papier après le deuxième cycle de recherche

Après une recherche en ligne, le meilleur point d’entrée pour G1 devrait être plus clairement l’évaluation des agents basés sur le domaine + la vérification de la sécurité, plutôt que les applications LLM générales. AgentBench prouve que les agents LLM doivent évaluer le raisonnement et la prise de décision dans un environnement interactif [34] ; BFCL explique que l’appel de fonction doit vérifier la sélection de fonction, les paramètres, les appels parallèles et la détection de pertinence [35] ; -bench met en outre l’accent sur l’interaction multi-tours, l’API, la politique de domaine et l’indice de cohérence « pass^k » [36] ; ToolSandbox souligne que la dépendance à l’état, la canonisation et l’insuffisance d’informations sont les principales difficultés des agents basés sur des outils. [37].

L’inspiration pour G1 de ces travaux est la suivante : CloudBrain-Bench peut non seulement évaluer “si JSON est généré”, mais évalue également la mise à jour du statut de l’agent, la conformité aux règles, la dépendance aux outils, la réparation des pannes et la cohérence multi-tours dans la chaîne de transport à basse altitude.| Déjà réalisé | Travail représentatif | Limites | Différences dans G1 | |--------------|----------|------|---------------| | Benchmark des agents généraux | AgentBench, -bench, ToolSandbox [34] [36] [37] | N’inclut pas les contraintes de sécurité du trafic à basse altitude ni la chaîne d’outils des drones | Outils de domaine, politique, vérificateur pour UTM/UAV | | fonction d’appel de référence | BFCL [35] | Concentrez-vous sur l’exactitude des appels de fonction et ne vous souciez pas de l’exécutabilité physique et de la sécurité | Les appels d’outils doivent passer par le planificateur/vérificateur/simulateur | | LLM + trafic | TrafficGPT, enquête ITS LLM [9] [13] [14] | Trafic terrestre multifocale ou interaction avec un modèle de trafic | Extension à l’espace aérien à basse altitude, flotte de drones et sécurité formelle | | Spécification de tâche NL-LTL/robot | Lang2LTL, LTLCodeGen, ConformalNL2LTL [21] [22] [23] | Résoudre principalement la génération de spécifications | Intégrez la vérification des spécifications dans la boucle fermée complète de prise de décision du Cloud Brain | | Simulation UTM/UAM | NASA TCL4, CORUS-XUAM, AAM-Gym [38] [39] [40] | L’orchestration des outils d’agent LLM n’est généralement pas étudiée | Prise en charge de CloudBrain-Bench avec les concepts et scénarios UTM/UAM |

5. Cadre de travail associé

5.1 LLM pour le transport

TrafficGPT explique que LLM peut être utilisé comme entrée d’interaction et de traitement pour les modèles de base du trafic, mais souligne également que les données numériques de trafic, la simulation et l’interaction du modèle ne peuvent pas être générées uniquement par du texte brut [9]. Des revues récentes des ITS placent davantage le LLM dans les interfaces sémantiques du trafic, les aides à la décision et la compréhension des données multi-sources [13] [14]. UrbanGPT et UniST représentent l’orientation du modèle de base de l’espace-temps urbain et conviennent pour soutenir la compréhension de l’état urbain, mais ce ne sont pas des chaînes d’outils d’exploitation d’UAV à basse altitude [15] [16].### 5.2 Agents LLM et utilisation des outils

ReAct entrelace trace de raisonnement et action et constitue la base de la boucle d’agent dans cet article [6]. Toolformer et ToolLLM prouvent que LLM peut apprendre l’utilisation des API/outils, mais ils ne résolvent pas les problèmes de vérification de la sécurité routière à basse altitude et d’exécutabilité des missions [7][17]. MCP et OpenAI Agents SDK fournissent une méthode de connexion d’outils plus standard, qui permet de transformer le planificateur, le planificateur, le vérificateur et le simulateur en outils remplaçables [18] [19].

Après le deuxième cycle de recherche, les travaux connexes devraient également ajouter le système d’évaluation des agents : AgentBench est un benchmark LLM-as-agent multi-environnements [34] ; BFCL évalue spécifiquement l’appel de fonction et la détection de pertinence [35] ; -bench utilise plusieurs cycles d’interaction utilisateur-agent-outil et pass^k pour évaluer la fiabilité [36] ; ToolSandbox met l’accent sur l’état d’exécution de l’outil, les dépendances implicites et les scénarios d’informations insuffisantes [37]. Le protocole d’évaluation G1 devrait intégrer ces idées mais changer l’environnement en un cerveau nuageux de trafic à basse altitude.

5.3 Planification LLM et vérification formelle

LLM+P et PlanBench montrent que le LLM seul n’est pas fiable pour la planification et doit être combiné avec des planificateurs externes, des représentations formelles et des protocoles d’évaluation [8] [20]. Lang2LTL, LTLCodeGen et ConformalNL2LTL illustrent que la traduction du langage naturel en logique temporelle se développe, mais ils se concentrent principalement sur la génération de spécifications et une couverture incomplète de la planification, du routage, de la simulation et des boucles fermées des risques dans le cerveau des nuages de trafic à basse altitude [21] [22] [23]. Spot et RTAMT peuvent être utilisés respectivement comme outils de vérification LTL/STL [24] [25].

5.4 Données de drone, UTM et simulationLa FAA UTM définit la gestion du trafic des drones à basse altitude comme une écologie collaborative qui prend en charge la planification des vols, les autorisations, la surveillance et la gestion des conflits [26]. Les cartes des installations UAS de la FAA fournissent une référence d’altitude qui peut être rapidement approuvée pour les opérations de la partie 107 dans l’espace aérien contrôlé et conviennent aux proxy des règles de l’espace aérien [27]. OSM/Overpass, les données NYC TLC OD, SUMO, AirSim et Flightmare peuvent conjointement prendre en charge le benchmark synthétique-réel [28] [29] [30] [31] [32].

Pour améliorer la crédibilité du trafic à basse altitude, G1 devrait en outre citer les tests en vol TCL4 Nevada de la NASA : ce test comprend des scénarios de BVLOS, de canyon urbain, de front météorologique, d’intervention d’urgence de concert et de problèmes CNS, et convient comme source pour la taxonomie des scénarios et les discussions sur la qualité des informations sur les systèmes humains [38]. Le CORUS-XUAM européen fournit un concept opérationnel U-space/UAM, des modèles de service U3/U4, une coordination ATM-U-space, un guidage de vertiport et des preuves humaines dans la boucle [39]. AAM-Gym peut être utilisé comme contrôle de simulation pour un banc d’essai avancé d’IA en mobilité aérienne, en particulier l’assurance de séparation des couloirs [40].

6. Formulation du problème

6.1 État du système

Au moment de décision discret , le cerveau du nuage de trafic à basse altitude reçoit l’état du système :

Parmi eux :- : Une collection de drones. Chaque drone a une position, une puissance, une charge, une vitesse et un statut de mission.

: collecte de tâches, y compris la distribution, l’inspection, l’intervention d’urgence, le retour et la facturation.
: statut de l’espace aérien, y compris le couloir, la zone d’exclusion aérienne, l’altitude, la météo et la capacité.
: Plan de la ville, comprenant le réseau routier OSM, les POI, les bâtiments et les zones fonctionnelles.
: contraintes de sécurité et opérationnelles, dont LTL/STL, délai, distance, énergie.
: événements historiques, cas d’échec, retours humains et retours des vérificateurs.

Les instructions en langage naturel sont notées . Le but est de générer des décisions exécutables :

Où est LowAltitudeIR, est la séquence d’appel de l’outil, est la décision de planification/chemin/risque et est l’explication.

6.2 Cibles exécutables sécurisées

Une décision est considérée comme réussie si et seulement si :

Validité du schéma : satisfait la contrainte de type LowAltitudeIR.
Exécutabilité de l’outil : tous les paramètres d’appel de l’outil sont légaux et renvoient des résultats sans erreur.
Faisabilité de la planification : la planification et la planification des itinéraires sont exécutables.
Sécurité temporelle : spécifications LTL/STL vérifiées.
Robuste de la simulation : ne déclenche pas de collisions, de violations de zones d’exclusion aérienne ou de violations de délais dans les graines de scénario spécifiées.
Interprétabilité humaine : L’interprétation n’implique pas d’entités, d’outils ou de règles inexistants.

officiel:$$ \text{Succès}(\pi_t) = \mathbb{1}[ V_\text{schéma}(z_t) \land V_\text{tool}(a_{1:k}) \land V_\text{plan}(y_t) \land V_\text{logique}(y_t) \land V_\text{sim}(y_t) ]

E_\text{route} = L_\text{route} \cdot q_{0.9}(e \mid v, h, p, w)

\text{IR-EM} = \frac{1}{N}\sum_i \mathbb{1}[z_i = z_i^*]

You can't use 'macro parameter character #' in math mode **Champ IR F1** : calculez respectivement la précision, le rappel et F1 pour les champs tels que l'intention, les entités, les contraintes et le plan d'outil. ### 12.2 Indicateur d'appel d'outil **Précision de l'appel d'outil**：

\text{TCA} = \frac{#\text{corriger les appels d’outils}}{#\text{tous les appels d’outils}}

é è é é é é è é é é é à

\text{TDS} = \frac{#\text{chaînes d’outils satisfaisant toutes les dépendances de données}}{#\text{chaînes d’outils}}

You can't use 'macro parameter character #' in math mode Il mesure si l'agent interroge d'abord le statut de l'espace aérien/de la ville, puis planifie et vérifie, plutôt que de s'appuyer sur des outils en aval. ### 12.3 Indicateurs d'exécutabilité **Taux de décision exécutable**：

\text{EDR} = \frac{#\text{décisions exécutables du planificateur}}{N}

é â ：

\text{TSR} = \frac{#\text{tâches réussies entièrement vérifiées et simulées}}{N}

You can't use 'macro parameter character #' in math mode ### 12.4 Indicateurs de sécurité **Taux de violation des règles de sécurité**：

\text{SVR} = \frac{#\text{tâches violées par la sécurité}}{N}

You can't use 'macro parameter character #' in math mode Les types de violations comprennent : - intrusion dans une zone d'exclusion aérienne ; - violation de l'altitude ; - violation de la séparation minimale ; - violation de la réserve de batterie ; - non-respect du délai ; - repli dangereux ; - permission hallucinée. La version étendue du transport à basse altitude recommande des indicateurs de sécurité de transport supplémentaires :| Indicateurs | Définition | Objectif | |------|------|------| | Proxy LoWC | Le rapport en dessous d'une séparation bien claire à tout moment | Mesurer le risque de perte d'espacement | | Mandataire NMAC | Nombre de fois en dessous du seuil de quasi-collision en vol | Mesure du risque grave proche du milieu | | Rapport de risque | La proportion d'événements à risque par rapport à la référence de sécurité basée sur des règles | Rendre différents scénarios comparables | | Précision du refus sûr | La proportion de rejets/demandes de confirmation manuelle qui sont vraiment dangereux à exécuter | Empêcher l'agent d'être trop conservateur | Le texte principal de l'AAAI/IJCAI ne peut signaler que la répartition du SVR et du type de violation ; l’extension T-ITS doit indiquer le proxy LoWC/NMAC et le ratio de risque. ### 12.5 Indicateur d'hallucinations **Taux d'hallucinations**：

\text{HR} = \frac{#\text{sorties contenant une entité/un outil/une règle inexistante}}{N}

You can't use 'macro parameter character #' in math mode ### 12.6 Indicateurs de réparation **Taux de réussite des réparations**：

\text{RSR} = \frac{#\text{échec des premières tentatives réparées en K itérations}}{#\text{échec des premières tentatives}}

é é è é

\text{pass}^k = \frac{#\text{tâches réussies dans toutes } k \text{ exécutions répétées}}{N}

Article G1 Proposition d’article complète v1 : Agent LLM vérifiable pour le cerveau des nuages ​​de trafic à basse altitude