Papier G1 Vollständiger Papiervorschlag v1: Verifizierbarer LLM-Agent für das Cloud-Brain des Verkehrs in geringer Höhe

Kernurteil: Das erste Papier sollte nicht als „Feinabstimmung eines großen Verkehrsmodells für Tiefgebirgsverkehr“ verfasst werden, sondern als überprüfbares, reproduzierbares und einsetzbares LLM-Agent-Methodenpapier für Tiefgebirgsverkehr.
Empfohlenes Thema: CloudBrain-Agent: Tool-erweiterte und verifizierungsgesteuerte LLM-Agenten für den Verkehrsbetrieb in geringer Höhe.

1. Papierpositionierung und Einreichungsbeurteilung

1.1 Positionierung in einem Satz

In diesem Artikel wird der große Modellagent im Cloud-Gehirn des Verkehrs in geringer Höhe untersucht: Wie kann der LLM-Agent anhand einer Aufgabe in natürlicher Sprache, des städtischen Luftraums in geringer Höhe, des UAV-Flottenstatus und von Sicherheitsbeschränkungen sichere, ausführbare und interpretierbare Betriebsentscheidungen für den Verkehr in geringer Höhe durch strukturierte Zwischendarstellung, Werkzeugaufruf, formale Verifizierung und Simulationsfeedback generieren?

1.2 Empfohlene Beiträge

Bevorzugt: AAAI/IJCAI Master.
Alternativen: AAMAS, IROS/ICRA-Workshop, T-ITS-Folgeerweiterung.

Gemäß dem Zeitpunkt vom 20.05.2026 muss die spezifische Sitzung auf die nächste Runde der AAAI/IJCAI CFP abgestimmt werden; Dieser Artikel ist noch im Stil der AAAI/IJCAI-Hauptkonferenz gestaltet, da AAAI den Schwerpunkt auf KI-Methoden, Anwendungsfelder und Reproduzierbarkeit legt und der IJCAI-ECAI KI- und Robotik-Track einen klaren Fokus auf Roboteragenten, generative KI, Argumentation, strukturierte Modellierung und Handlungskonsequenzen legt [1] [2].

1.3 Warum eignet sich dieser Artikel besser als „Feinabstimmung großer Verkehrsmodelle in geringer Höhe“?

Die direkte Feinabstimmung eines LowAltitudeGPT birgt drei Überprüfungsrisiken:

LoRA, QLoRA und DPO sind bereits ausgereifte Trainingsparadigmen. Die bloße Änderung von Domänendaten reicht nicht aus, um den Hauptbeitrag darzustellen [3] [4] [5].
Der Verkehr in geringer Höhe ist ein sicherheitskritisches System und es ist schwierig, Prüfer davon zu überzeugen, dass LLM Kontrollmaßnahmen direkt ausgibt.
Echte Daten zum Tiefflugverkehr sind rar. Wenn Sie sich im ersten Artikel auf „Großmodelltraining“ konzentrieren, werden Sie nach Datenumfang, Trainingsbudget und Modellneuheit gefragt.Daher sollte sich der erste Artikel auf Agent + Tools + Verifier + Simulator-Feedback konzentrieren. Das große Modell ist nicht der endgültige Controller, sondern eine Ebene des Aufgabenverständnisses, der Tool-Orchestrierung, der Reparatur von Gegenbeispielen und der Interpretation. Diese Einstellung ist natürlich mit Agenten-/Toolnutzungs-/Planungsarbeiten wie ReAct, ToolLLM, LLM+P [6] [7] [8] verbunden und kann auch mit der Diskussion von TrafficGPT über die Interaktion zwischen Verkehrsgrundlagenmodell und LLM mithalten [9].

1.4 22.05.2026 Kalibrierung schreiben: Schreiben Sie G1 nicht als TR-C-Geschichte, sondern bewahren Sie die Verkehrssystembeweise auf

Die erste Investition in G1 ist AAAI/IJCAI, daher muss der Hauptbeitrag die KI-Agent-Methode sein und nicht die Systemerzählung im Stil eines Transportjournals. Eine genauere Schreibweise ist:

CloudBrain-Agent ist eine KI-Agentenmethode, die in einem sicherheitskritischen Verkehrsbereich in geringer Höhe evaluiert wird.

Mit anderen Worten, die Verkehrsszene bietet echte Schwierigkeiten und Sicherheitsbeschränkungen, aber das Papier muss noch Fragen im Agentenbereich beantworten: ob der Tool-Aufruf zuverlässig ist, ob der Zustand konsistent ist, ob die Gegenbeispielreparatur effektiv ist, ob das Modell eine Illusion ist und ob die Bewertung reproduzierbar ist.

Gleichzeitig kann G1 nicht nur „task_success“ und „tool_call_accuracy“ melden. Da der Verkehr in geringer Höhe ein sicherheitskritischer Bereich ist, müssen die Verkehrssystemnachweise aus der ersten Version des Experiments erhalten bleiben:| Ebene | AAAI/IJCAI-Haupttextschwerpunkt | Schwerpunkt der weiteren T-ITS-Erweiterung | |------|-------|-------| | Agentenfunktionen | IR-Validität, Tool-Call-Genauigkeit, Reparaturerfolg, Halluzinationsrate | menschliche Bestätigung, Arbeitsbelastung des Bedieners, zustandsbehaftete Konsistenz | | Sicherheit | Sicherheitsverstoß, NFZ-Verstoß, Batterieverstoß | LoWC/NMAC-Proxy, Risikoverhältnis, Wetter-/Kommunikationsverschlechterung | | Effizienz | ausführbare Entscheidung, Latenz, Laufzeit | Verzögerung, zusätzliche Distanz, Energie, Durchsatz | | Verallgemeinerung | unsichtbare Stadt, Stress, UNSAT/mehrdeutige Aufgaben | Korridor mit hoher Dichte, nicht kooperatives UAV, Kommunikationsverlust, realer Kontext, Stadtteilung | | Systemaufklärung | Wann ist ein Prüfer-Feedback erforderlich | Welche Szenarien müssen vom deterministischen Löser/menschlichen Supervisor des LLM-Agenten zurückgegeben werden |

Daher müssen die Randbedingungen von G1 klar geschrieben werden:

Behaupten Sie nicht, dass es sich tatsächlich um einen tatsächlichen Einsatz handelt.
Erhebt keinen Anspruch auf eine durchgängige automatische Steuerung;
Es wird nicht behauptet, dass LLM ein Ersatzplaner/Planer/Validator ist; – behauptet lediglich, dass der LLM-Agent für das Aufgabenverständnis, die Orchestrierung, Reparatur und Interpretation in der Toolkette und das Verifizierungsfeedback verantwortlich ist;
Die Schlussfolgerungen zum Verkehrssystem werden nur als „beobachtbare betriebliche Auswirkungen“ formuliert und nicht in politische Empfehlungen überformt.

1.5 23.05.2026 Zusammenstellung: Liste der Einreichungsversionen eingefroren

Die erste Version der G1-Einreichung muss drei Ansprüche einfrieren, um zu verhindern, dass sie zu einer Plattformspezifikation für niedrige Höhen wird:1. Benchmark zur domänenbasierten Toolnutzung: CloudBrain-Bench testet nicht nur das JSON-Format, sondern auch die Funktionsauswahl, Parametererdung, Zustandsabhängigkeit, Richtlinieneinhaltung und Mehrrundenkonsistenz in der Transportkette in geringer Höhe. 2. Verifizierergesteuerte Reparatur: Sicherheitsfehler, nicht ausführbare Fehler und mehrdeutige Aufgaben bei Verkehrsmissionen in geringer Höhe müssen durch LTL/STL-Verifizierer, Routenplaner und Simulator-Feedback in strukturierte Reparatursignale umgewandelt werden. 3. Lokal einsetzbare Agentenimplementierung: Das Hauptexperiment muss auf dem lokalen Open-Source-Modell reproduzierbar sein und das API-Modell dient nur als Lehrer oder Obergrenze.

Der erste Teil muss abgeschlossen sein:| Module | Freeze-Anforderungen | |------|----------| | LowAltitudeIR | Schema, Typprüfung, Fehlercodes und JSON-Beispiele korrigiert | | Werkzeuge | Mindestens 6: Luftraumabfrage, Flottenstatus, Zuordnung, Routenplaner, LTL/STL-Verifizierer, Szenariosimulator/Risikoschätzer | | CloudBrain-Bench | Entwicklung/Validierung/Test/Stress-Aufteilung, deckt SAT-, UNSAT-, mehrdeutige, ressourcenbeschränkte Stressszenarien ab | | Grundlinien | Direktes LLM, nur JSON, ReAct, LLM+P / nur Planer, Tool-Nutzung ohne Verifizierer, CloudBrain voll | | Metriken | Aufgabenerfolg, Tool-Call-Genauigkeit, ausführbare Entscheidung, Sicherheitsverletzung, Reparaturerfolg, Halluzinationsrate, Latenz/Kosten | | Ablationen | kein IR, kein Prüfer, kein Simulator, keine Reparatur, API-Lehrer vs. lokales Modell | | Datenschicht | Synthetische Stammdaten + echte OSM/FAA/OD/SUMO-Kontextfelder, keine echten Daten als bereitgestelltes System schreiben |

Der erste suspendierte Inhalt:

Komplette MCP-Produktisierung;
Multi-Agenten-Zusammenarbeit als Hauptbeitrag; -Schreiben Sie das LowAltitudeGPT-Feinabstimmungsmodell als Hauptmethode.
Echter UAV-Einsatz oder -Flug;
VLA/Weltmodell/verkörperter AGI-Vorschlag.

Die Funktion dieser eingefrorenen Liste besteht darin, die Grenzen des Papiers zu kontrollieren: G1 beweist nur, dass ein „überprüfbarer LLM-Agent im Schlüsselbereich der Verkehrssicherheit in geringer Höhe“ etabliert ist, und die nachfolgenden G2/G3/G4 werden sich jeweils mit der Feinabstimmung, der Multi-Agenten- bzw. der verkörperten Erweiterung befassen.

---## 2. Entwurf einer Zusammenfassung

Der städtische Verkehrsbetrieb in geringer Höhe erfordert eine Entscheidungsfindung in Echtzeit zwischen dynamischen Aufgaben, begrenzten Luftraumressourcen, UAV-Statusbeschränkungen und Sicherheitsregeln. Große Sprachmodelle sind in der Lage, natürliche Sprache zu verstehen und komplexe Aufgaben zu zerlegen. Wenn sie jedoch direkt für die UAV-Planung und Pfadplanung verwendet werden, führen sie zu Halluzinationen, nicht ausführbaren Plänen und Sicherheitsverstößen. In diesem Artikel wird CloudBrain-Agent vorgeschlagen, ein LLM-Agent-Framework zur Werkzeugverbesserung und Verifizierungsanleitung für Cloud Brain mit geringem Höhenverkehr. CloudBrain-Agent analysiert Aufgaben und Systemzustände in natürlicher Sprache in typisiertes „LowAltitudeIR“, ruft Luftraumabfragen, UAV-Zuweisung, Pfadplanung, LTL/STL-Verifizierung, Szenariosimulation und Risikobewertungstools auf und korrigiert Entscheidungen iterativ mithilfe von Verifizierer-Gegenbeispielen und Simulationsfeedback. Wir entwickeln CloudBrain-Bench, um Notfallverteilung, Inspektionen, Vermeidung von Flugverbotszonen, Überlastung von Korridoren, Ladeengpässe, Multi-Mode-Fallback und unbefriedigende Aufgaben abzudecken. Das Experiment vergleicht direktes LLM, reines Prompt-ReAct, Tool-Nutzung ohne Überprüfung, LLM+P, Orchestrierung im TrafficGPT-Stil und CloudBrain-Agent voll. Die Erwartung vor der Registrierung besteht darin, dass CloudBrain-Agent die reinen Eingabeaufforderungs- und reinen Tool-Baselines in Bezug auf Aufgabenerfolg, ausführbare Entscheidungsrate, Sicherheitsverletzungsrate, Halluzinationsrate und Reparaturerfolg deutlich übertrifft und gleichzeitig eine akzeptable lokale Bereitstellungslatenz beibehält.

3. Forschungsfragen und Kernhypothesen

3.1 Forschungsfragen

RQ1: Kann der LLM-Agent bei Verkehrsmissionen in geringer Höhe Entscheidungsketten des richtigen Typs und mit Werkzeugen ausführbar generieren?

RQ2: Können formale Verifizierung und Simulationsfeedback nicht ausführbare Pläne, Sicherheitsverstöße und Halluzinationen im LLM erheblich reduzieren?

RQ3: Kann die Lösung aus allgemeinem LLM + typisiertem IR + MCP/Tools + Verifizierer im Vergleich zur direkten Feinabstimmung des vertikalen Modells schneller ein reproduzierbares, einsetzbares und skalierbares Forschungssystem bilden?RQ4: Kann das lokale Open-Source-Modell die Leistung des starken Closed-Source-Modells unter den von der Lehrer-API generierten Daten und Regelrückmeldungen erreichen und das nachfolgende LowAltitudeGPT-Papier unterstützen?

3.2 Kernannahmen

H1: Die Eingabe von „LowAltitudeIR“ kann die Qualität der strukturierten Ausgabe und die Genauigkeit des Werkzeugaufrufs erheblich verbessern.
H2: Eine verifizierungsgesteuerte Reparatur kann die Entscheidungsrate für ausführbare Dateien deutlich verbessern und die Rate von Sicherheitsverstößen reduzieren.
H3: Das Feedback des Simulators ist für die Verallgemeinerung unsichtbarer gefährlicher Szenen von entscheidender Bedeutung.
H4: In der ersten Phase muss das vertikale Fundamentmodell nicht trainiert werden. Das allgemeine Modell + die Agent-Tool-Schicht + die Nachbearbeitung des Verifizierers reichen aus, um das G1-Papier fertigzustellen.
H5: Nachdem das lokale Qwen3/DeepSeek-R1-Distill-Modell über vLLM bereitgestellt wurde, kann es als reproduzierbares Hauptversuchsmodell verwendet werden; API-Modelle wie GPT-5.2 dienen als Lehrer und Leistungsobergrenzen [10] [11] [12].

4. Gestaltung von Papierbeiträgen

Es wird empfohlen, den Abschlussbeitrag der Arbeit in drei Artikeln zu verfassen, um eine Streuung zu vermeiden:

CloudBrain-Agent-Framework Für das Cloud Brain für den Verkehr in geringer Höhe wird ein typisierter LLM-Agent mit Werkzeugnutzung vorgeschlagen, der Aufgaben in natürlicher Sprache, den Status des städtischen Luftraums, den Status der UAV-Flotte und Sicherheitsbeschränkungen in „LowAltitudeIR“ vereint.
Überprüfungsgeführte Reparatur für den Verkehr in geringer Höhe Wandeln Sie Fehlerrückmeldungen von LTL/STL-Prüfern, Routenplanern und Simulatoren in strukturierte Gegenbeispiele um, die Aufrufe von LLM-Reparaturtools, Aufgabeneinschränkungen und Pfad-/Planungsempfehlungen vorantreiben.3. CloudBrain-Bench und Evaluierungsprotokoll Erstellen Sie einen Brain-Benchmark für den Cloud-Verkehr in geringer Höhe, der Indikatoren wie Tool-Call-Genauigkeit, ausführbare Entscheidung, Sicherheitsverletzung, Reparaturerfolg, Generalisierung, Latenz und menschliches Vertrauen abdeckt.

Es wird nicht empfohlen, den Beitrag als „Wir haben ein großes Verkehrsmodell in geringer Höhe trainiert“ zu schreiben. Die Feinabstimmung kann als experimentelle Erweiterung oder als nächster G2 erfolgen.

4.1 Papierpositionierungsmatrix nach der zweiten Forschungsrunde

Nach Online-Recherchen sollte der beste Einstiegspunkt für G1 eindeutig domänenbasierte Agentenbewertung + Sicherheitsüberprüfung sein und nicht allgemeine LLM-Anwendungen. AgentBench beweist, dass LLM-Agenten Argumentation und Entscheidungsfindung in einer interaktiven Umgebung bewerten müssen [34]; BFCL erklärt, dass Funktionsaufrufe Funktionsauswahl, Parameter, parallele Aufrufe und Relevanzerkennung überprüfen müssen [35]; -bench betont außerdem Mehrrundeninteraktion, API, Domänenrichtlinie und Konsistenzindex „pass^k“ [36]; ToolSandbox weist darauf hin, dass Zustandsabhängigkeit, Kanonisierung und unzureichende Informationen die Hauptschwierigkeiten von Tool-basierten Agenten sind. [37].

Die Inspiration für G1 aus diesen Arbeiten ist: CloudBrain-Bench kann nicht nur bewerten, „ob JSON ausgegeben wird“, sondern bewertet auch die Statusaktualisierung, Regeleinhaltung, Werkzeugabhängigkeit, Fehlerreparatur und Mehrrundenkonsistenz des Agenten in der Transportkette in geringer Höhe.| Bereits gerichtet | Repräsentative Arbeit | Einschränkungen | Unterschiede in G1 | |----------|----------|------|-----------| | Generalagenten-Benchmark | AgentBench, -bench, ToolSandbox [34] [36] [37] | Beinhaltet keine Sicherheitsbeschränkungen für den Tiefflugverkehr und keine UAV-Werkzeugkette | Domänentools, Richtlinien, Prüfer für UTM/UAV | | Funktionsaufruf-Benchmark | BFCL [35] | Konzentrieren Sie sich auf die Korrektheit von Funktionsaufrufen und kümmern Sie sich nicht um physische Ausführbarkeit und Sicherheit | Werkzeugaufrufe müssen über den Planer/Verifizierer/Simulator | erfolgen | LLM + Verkehr | TrafficGPT, ITS LLM-Umfrage [9] [13] [14] | Multifokus-Bodenverkehr oder Verkehrsmodellinteraktion | Ausweitung auf den Luftraum in geringer Höhe, die UAV-Flotte und die formelle Sicherheit | | NL-zu-LTL/Roboter-Aufgabenspezifikation | Lang2LTL, LTLCodeGen, ConformalNL2LTL [21] [22] [23] | Lösen Sie hauptsächlich die Spezifikationsgenerierung | Integrieren Sie die Spezifikationsüberprüfung in den geschlossenen Entscheidungskreislauf des gesamten Cloud-Gehirns | | UTM/UAM-Simulation | NASA TCL4, CORUS-XUAM, AAM-Gym [38] [39] [40] | Die Orchestrierung von LLM-Agent-Tools wird normalerweise nicht untersucht | Unterstützen Sie CloudBrain-Bench mit UTM/UAM-Konzepten und -Szenarien |

5. Verwandter Arbeitsrahmen

5.1 LLM für den Transport

TrafficGPT erklärt, dass LLM als Interaktions- und Verarbeitungseingang für Verkehrsfundamentmodelle verwendet werden kann, weist aber auch darauf hin, dass numerische Verkehrsdaten, Simulationen und Modellinteraktionen nicht allein durch Klartext generiert werden können [9]. Jüngste ITS-Überprüfungen platzieren LLM weiter in den Bereichen semantische Verkehrsschnittstellen, Entscheidungshilfen und Datenverständnis aus mehreren Quellen [13] [14]. UrbanGPT und UniST repräsentieren die Richtung des städtischen Raum-Zeit-Grundlagenmodells und eignen sich zur Unterstützung des Stadtstaatsverständnisses, sind jedoch keine Werkzeugketten für den Betrieb von UAVs in geringer Höhe [15] [16].### 5.2 LLM-Agenten und Tool-Nutzung

ReAct verwebt Argumentation, Spur und Aktion und ist die Grundlage der Agentenschleife in diesem Artikel [6]. Toolformer und ToolLLM beweisen, dass LLM die Verwendung von APIs/Tools erlernen kann, lösen jedoch nicht die Probleme der Überprüfung der Verkehrssicherheit in geringer Höhe und der Ausführbarkeit von Missionen [7][17]. MCP und OpenAI Agents SDK bieten eine standardisiertere Tool-Verbindungsmethode, die dabei hilft, Scheduler, Planer, Verifizierer und Simulator zu austauschbaren Tools zu machen [18] [19].

Nach der zweiten Forschungsrunde sollte in verwandten Arbeiten auch das Agentenbewertungssystem hinzugefügt werden: AgentBench ist ein LLM-als-Agent-Benchmark für mehrere Umgebungen [34]; BFCL wertet speziell Funktionsaufrufe und Relevanzerkennung aus [35]; -bench verwendet mehrere Runden der Benutzer-Agent-Tool-Interaktion und „pass^k“, um die Zuverlässigkeit zu bewerten [36]; ToolSandbox betont den Werkzeugausführungsstatus, implizite Abhängigkeiten und unzureichende Informationsszenarien [37]. Das G1-Bewertungsprotokoll sollte diese Ideen berücksichtigen, die Umgebung jedoch in ein Cloud-Gehirn für den Verkehr in geringer Höhe verwandeln.

5.3 LLM-Planung und formale Verifizierung

LLM+P und PlanBench zeigen, dass LLM allein nicht planungssicher ist und mit externen Planern, formalen Darstellungen und Bewertungsprotokollen kombiniert werden muss [8] [20]. Lang2LTL, LTLCodeGen und ConformalNL2LTL veranschaulichen, dass sich die Übersetzung natürlicher Sprache in zeitliche Logik weiterentwickelt, sie konzentrieren sich jedoch hauptsächlich auf die Generierung von Spezifikationen und die unvollständige Abdeckung von Planung, Routing, Simulation und geschlossenen Risikoschleifen im Cloud-Gehirn des Verkehrs in geringer Höhe [21] [22] [23]. Spot und RTAMT können jeweils als LTL/STL-Verifizierungstools verwendet werden [24] [25].

5.4 UAV-, UTM- und SimulationsdatenFAA UTM definiert UAV-Verkehrsmanagement in geringer Höhe als eine kollaborative Ökologie, die Flugplanung, Autorisierung, Überwachung und Konfliktmanagement unterstützt [26]. FAA UAS Facility Maps bieten eine Höhenreferenz, die schnell für Teil 107-Operationen im kontrollierten Luftraum genehmigt werden kann und als Proxy für Luftraumregeln geeignet ist [27]. OSM/Overpass, NYC TLC OD-Daten, SUMO, AirSim und Flightmare können gemeinsam den Synthetik-zu-Real-Benchmark unterstützen [28] [29] [30] [31] [32].

Um die Glaubwürdigkeit des Verkehrs in geringer Höhe zu erhöhen, sollte G1 außerdem die NASA TCL4 Nevada-Flugtests zitieren: Dieser Test umfasst BVLOS-, Häuserschlucht-, Wetterfront-, Konzert-Notfallreaktions- und ZNS-Problemszenarien und eignet sich als Quelle für Szenariotaxonomie und Diskussionen über die Qualität von Mensch-System-Informationen [38]. Das europäische CORUS-XUAM bietet ein U-Space/UAM-Betriebskonzept, U3/U4-Servicemodelle, ATM-U-Space-Koordination, Vertiport-Führung und Human-in-the-Loop-Beweise [39]. AAM-Gym kann als Simulationssteuerung für fortgeschrittene Luftmobilitäts-KI-Testumgebungen verwendet werden, insbesondere zur Sicherung der Korridortrennung [40].

6. Problemformulierung

6.1 Systemstatus

Zum diskreten Entscheidungszeitpunkt empfängt das Gehirn der Verkehrswolke in geringer Höhe den Systemstatus:

Unter ihnen:- : Eine Sammlung von UAVs. Jedes UAV verfügt über Position, Leistung, Last, Geschwindigkeit und Missionsstatus.

: Aufgabensammlung, einschließlich Verteilung, Inspektion, Notfallreaktion, Rückgabe und Abrechnung.
: Luftraumstatus, einschließlich Korridor, Flugverbotszone, Höhe, Wetter und Kapazität.
: Stadtplan, einschließlich OSM-Straßennetz, POI, Gebäude und Funktionsbereiche.
: Sicherheits- und Betriebsbeschränkungen, einschließlich LTL/STL, Frist, Entfernung, Energie.
: historische Ereignisse, Fehlerfälle, menschliches Feedback und Feedback des Prüfers.

Anweisungen in natürlicher Sprache werden mit bezeichnet. Ziel ist es, umsetzbare Entscheidungen zu generieren:

Dabei ist „LowAltitudeIR“, ist die Werkzeugaufrufsequenz, ist die Planungs-/Pfad-/Risikoentscheidung und ist die Erklärung.

6.2 Sichere ausführbare Ziele

Eine Entscheidung gilt genau dann als erfolgreich, wenn:

Schemagültigkeit: erfüllt die Typbeschränkung „LowAltitudeIR“.
Tool-Ausführbarkeit: Alle Tool-Aufrufparameter sind zulässig und geben fehlerfreie Ergebnisse zurück.
Planungsdurchführbarkeit: Termin- und Wegeplanung sind durchführbar.
Zeitliche Sicherheit: LTL/STL-Spezifikationen überprüft.
Simulationsrobustheit: Löst in bestimmten Szenario-Seeds keine Kollisionen, Flugverbotszonenverstöße oder Fristverstöße aus.
Menschliche Interpretierbarkeit: Die Interpretation umfasst keine nicht existierenden Einheiten, Werkzeuge oder Regeln.

formell:$$ \text{Erfolg}(\pi_t) = \mathbb{1}[ V_\text{Schema}(z_t) \land V_\text{tool}(a_{1:k}) \land V_\text{plan}(y_t) \land V_\text{Logik}(y_t) \land V_\text{sim}(y_t) ]

E_\text{Route} = L_\text{Route} \cdot q_{0,9}(e \mid v, h, p, w)

\text{IR-EM} = \frac{1}{N}\sum_i \mathbb{1}[z_i = z_i^*]

You can't use 'macro parameter character #' in math mode **IR-Feld F1**: Berechnen Sie Präzision, Rückruf bzw. F1 für Felder wie Absicht, Entitäten, Einschränkungen und Werkzeugplan. ### 12.2 Werkzeugaufrufanzeige **Tool-Call-Genauigkeit**:

\text{TCA} = \frac{#\text{richtige Werkzeugaufrufe}}{#\text{alle Werkzeugaufrufe}}

ä ü ä ä

\text{TDS} = \frac{#\text{Werkzeugketten, die alle Datenabhängigkeiten erfüllen}}{#\text{Werkzeugketten}}

You can't use 'macro parameter character #' in math mode Es misst, ob der Agent zuerst den Luftraum-/Stadtstatus abfragt, dann plant und überprüft, anstatt sich auf nachgelagerte Tools zu verlassen. ### 12.3 Ausführbarkeitsindikatoren **Ausführbare Entscheidungsrate**:

\text{EDR} = \frac{#\text{ausführbare Entscheidungen des Planers}}{N}

\text{TSR} = \frac{#\text{vollständig verifizierte und simulierte erfolgreiche Aufgaben}}{N}

You can't use 'macro parameter character #' in math mode ### 12.4 Sicherheitsindikatoren **Rate von Sicherheitsverstößen**:

\text{SVR} = \frac{#\text{Aufgaben mit Sicherheitsverstößen}}{N}

You can't use 'macro parameter character #' in math mode Zu den Verstoßarten gehören: - Eindringen in die Flugverbotszone; - Höhenverstoß; - Mindestabstandsverletzung; - Verletzung der Batteriereserve; - Fristverletzung; - unsicherer Fallback; - halluzinierte Erlaubnis. Die erweiterte Version des Tieftransports empfiehlt weitere Transportsicherheitsindikatoren:| Indikatoren | Definition | Zweck | |------|------|------| | LoWC-Proxy | Das Verhältnis unterhalb der jederzeit klaren Trennung | Messung des Risikos eines Trennungsverlusts | | NMAC-Proxy | Anzahl der Unterschreitungen der Nahkollisionsschwelle in der Luft | Maß für schweres, nahezu mittleres Risiko | | Risikoverhältnis | Der Anteil der Risikoereignisse im Verhältnis zur regelbasierten sicheren Basislinie | Verschiedene Szenarien vergleichbar machen | | Präzision bei der sicheren Ablehnung | Der Anteil der Ablehnungen/Anfragen zur manuellen Bestätigung, deren Ausführung wirklich unsicher ist | Verhindern, dass der Agent übermäßig konservativ ist | Im AAAI/IJCAI-Haupttext können nur SVR- und Verstoßtyp-Aufschlüsselungen gemeldet werden. Die T-ITS-Erweiterung sollte den LoWC/NMAC-Proxy und das Risikoverhältnis melden. ### 12.5 Halluzinationsindikator **Halluzinationsrate**:

\text{HR} = \frac{#\text{Ausgaben, die nicht vorhandene Entitäten/Werkzeuge/Regeln enthalten}}{N}

You can't use 'macro parameter character #' in math mode ### 12.6 Blinker reparieren **Reparaturerfolgsquote**:

\text{RSR} = \frac{#\text{fehlgeschlagene erste Versuche innerhalb von K Iterationen repariert}}{#\text{fehlgeschlagene erste Versuche}}

ü

\text{pass}^k = \frac{#\text{Aufgaben in allen erfolgreich } k \text{ wiederholte Durchläufe}}{N}