Paper E Experimental Task Book v2: Verifizierung und Fehlerkorrektur UAV-Sprachplanung für AAAI

Diese Datei verwendet immer noch den Dateinamen „paper-e-vera-uav-experiment-taskbook-v1-20260517.md“, da diese Runde eine „direkte Änderung an der V1-Version“ erfordert. Der Text, der Titel und die Versionshinweise wurden alle auf v2 aktualisiert. Bei diesem Artikel handelt es sich nicht um einen endgültigen Papierentwurf, sondern um eine ausführbare experimentelle Aufgabenstellung: Klärung der Forschungspositionierung von Papier E, echte zitierfähige Dokumente, Algorithmuslösungen, Datenkonstruktion, Vergleichsexperimente, Ablationsexperimente, Bewertungsindikatoren, theoretische Vollständigkeitsgrenzen und nachfolgende AAAI/T-ITS-Förderpläne. Ergänzender Schwerpunkt am 19.05.2026 ist: Verhinderung von Datenlecks, Fehlertaxonomie, Parameterbudgetierung, Indikatorformeln, Diagrammplanung und AAAI-Compliance-Risiken.

1. Forschungshintergrund und Ziele

Die Planung städtischer UAV-Missionen in geringer Höhe wandelt sich von „vom Ingenieur voreingestellten Routen“ zu „missionsgesteuert in natürlicher Sprache“. In tatsächlichen Anwendungen geben Bediener eher die folgenden Anweisungen:

„Überprüfen Sie zunächst die Ostfassade von Gebäude 3, gehen Sie dann zum Landepunkt auf dem Dach und warten Sie.“
„Meiden Sie die Luft über dem Krankenhaus und erreichen Sie den temporären Entbindungsbereich innerhalb von 30 Sekunden.“
„Wenn der Südkorridor besetzt ist, umgehen Sie den Westkorridor, halten Sie aber durchgehend einen Sicherheitsabstand von mehr als 20 Metern ein.“

Diese Anweisungen umfassen gleichzeitig semantisches Verständnis, zeitliche Reihenfolge, räumliche Einschränkungen, kontinuierliche Flugbahnsicherheit und Erreichbarkeitsbeurteilungen. Große Sprachmodelle (LLM) sind gut darin, natürliche Sprache zu verstehen und Kandidatenpläne zu generieren, sie können jedoch nicht garantieren, dass der Ausgabeplan im physischen Raum ausführbar ist, noch kann sie garantieren, dass Flugsicherheitsbeschränkungen eingehalten werden. Formale Methoden eignen sich gut zur Bereitstellung verifizierbarer Semantiken, wie beispielsweise die lineare zeitliche Logik (LTL) und die Signal-Temporale Logik (STL). Direkte handschriftliche Spezifikationen erfordern jedoch Fachwissen und sind für Laien nur schwer zu bedienen.

Bestehende Arbeiten haben gezeigt, dass die Übersetzung von natürlicher Sprache in LTL die Schwelle zum Schreiben von Roboteraufgabenspezifikationen erheblich senken kann. Lang2LTL wandelt beispielsweise komplexe Navigationsbefehle in LTL um und führt eine Generalisierungsbewertung in unsichtbaren Umgebungen durch [1]; NL2LTL bietet ein Open-Source-Python-Paket von natürlicher Sprache bis LTL [2]; LTLCodeGen verwendet Codegenerierung, um die grammatikalische Korrektheit von LTL zu verbessern und integriert es in die Roboterpfadplanung [3]; ConformalNL2LTL versucht außerdem, die konforme Vorhersage zu verwenden, um die Übersetzungsgenauigkeit zu gewährleisten [4]. Diese Arbeiten bilden eine wichtige Grundlage für diese Studie.Aber für UAV-Szenarien in geringer Höhe reicht es nicht aus, nur eine NL-zu-LTL-Übersetzung durchzuführen. Für UAV-Missionen gelten drei zusätzliche Anforderungen:

Kontinuierliche Sicherheitseinschränkungen: Einschränkungen wie Flughöhe, Geschwindigkeit, Hindernisentfernung, Zeitfenster usw. sind natürlich Einschränkungen für kontinuierliche Signale und eignen sich besser für die Bewertung der STL-Robustheit.
Ausführbare Trajektorie im geschlossenen Regelkreis: Korrekte Spezifikationen bedeuten nicht, dass die Trajektorie machbar ist und müssen durch Karten, Dynamik und Planer überprüft werden.
Fehler können behoben werden: LLM-Fehler sollten nicht nur als Fehler beurteilt werden, sondern vom Verifizierer in Gegenbeispiele oder Robustheitsrückmeldungen umgewandelt werden und dann die LLM-Korrektur vorantreiben.

Daher schlägt dieser Artikel VERA-UAV vor: ein neurosymbolisches Planungsframework zur Überprüfung und Fehlerkorrektur für UAV-Aufgaben in natürlicher Sprache. Die AAAI-Version priorisiert die Beantwortung einer Kernfrage:

Wie kann bei einer UAV-Mission in natürlicher Sprache ein natives Open-Source-LLM überprüfbare, reparierbare und ausführbare LTL/STL-Missionsspezifikationen und -Trajektorien generieren, anstatt nur Textpläne zu erstellen, die vernünftig erscheinen, aber nicht nachweislich sicher sind?

Die AAAI-Hauptkonferenzversion konzentriert sich auf KI-Planung, neurosymbolische Verifizierung und LLM-Selbstreparatur. Inhalte auf Systemebene wie AirSim, echte Tieffluglogistik und Multi-UAV-Luftraumdurchsatz werden in nachfolgende erweiterte T-ITS-Versionen integriert.

2. Problemdefinition und Kernannahmen

2.1 Eingabe und Ausgabe

Gegeben eine UAV-Aufgabeninstanz:

Darunter ist die Aufgabenanweisung in natürlicher Sprache, ist die städtische Karte in geringer Höhe mit semantischer Annotation und ist der UAV-Anfangszustand. Die Karte enthält Gebäude, Flugverbotszonen, passierbaren Luftraum, Landepunkte, Inspektionsziele, dynamische Hindernisse und Höhenstufen.

Systemausgabe:

\varphi_{\text{LTL}} = G(\neg Kollision) \wedge F(reach(goal)) \wedge G(\neg enter(no_fly_zone))

ä ü

\varphi_{\text{STL}} = G_{[0,T]}(d_{\text{obs}}(t) \ge d_{\min}) \keil G_{[0,T]}(h_{\min} \le h(t) \le h_{\max}) \keil F_{[0,30]}(erreichung(ziel))

ä ö

Zeigt an, dass die Flugbahn die Spezifikation erfüllt; Wenn , gibt der Prüfer die Verletzungsklausel, die Verletzungszeit und die minimale Sicherheitsmarge zurück.

4.4 Gegenbeispiel-Treiberreparatur

Anstatt nur „bestanden/nicht bestanden“ zurückzugeben, gibt der Validator eine strukturierte Diagnose zurück:

{
  "status": "FAILED",
  "stage": "STL_ROBUSTNESS",
  "violated_clause": "G[0,T](distance_to_obstacle >= 10)",
  "counterexample_trace": [
    {"t": 14.2, "x": 38, "y": 51, "z": 30, "distance_to_obstacle": 6.4}
  ],
  "robustness": -3.6,
  "repair_hint": "Increase safety margin or route around building_7 west side."
}

Die Reparaturaufforderung von LLM erfordert kein freies Spielen, erfordert jedoch nur die Änderung relevanter Felder in TaskIR:

你生成的 TaskIR 在 STL 验证中失败。
失败子句：G[0,T](distance_to_obstacle >= 10)
反例：t=14.2s 时距离 building_7 仅 6.4m。
请只修改 route constraint 或 safety margin，不要改变用户原始目标。
输出新的 TaskIR JSON。

Der Schwerpunkt dieses Entwurfs liegt darauf, den Suchraum von LLM zu reduzieren und das Reparaturverhalten erklärbar, aufzeichbar und reproduzierbar zu machen.

Wenn die LLM-Reparatur nach aufeinanderfolgenden -Runden fehlschlägt, wird der Symbolaufzählungs-Fallback eingegeben. Der Aufzählungsbereich wird durch die TaskIR-DSL-Tiefe, den Kartenentitätssatz, die zulässige Einschränkungsvorlage und den maximalen Aufgabenhorizont begrenzt. Der Enumerator priorisiert die Erweiterung der relevantesten Felder basierend auf Diagnoseergebnissen, wie z. B. Sicherheitsabstand, Umleitungsseite, Zeitfenster, Zielsequenz und Fallback-Landeplatz.

4.5 Trajektoriengenerierung

Die AAAI-Version verwendet einen leichten, reproduzierbaren Flugbahngenerator:

2D-Raster A*: für grundlegende Reichweitenvermeidungs- und sequentielle Aufgaben.
3D-Raster A*: Wird für Höhenniveaus und städtische Korridore in geringer Höhe verwendet.
RRT*: zur kontinuierlichen räumlichen Zusatzverifikation.
MPC-lite/Trajektorienglättung: Wird verwendet, um zu überprüfen, ob Wenderadius, Geschwindigkeitsänderung und Höhenänderung vereinfachte Dynamikbeschränkungen erfüllen.

Der Flugbahngenerator ist nicht die Neuerung dieses Artikels. Seine Funktion besteht darin, das Spezifikationsübersetzungsproblem auf die Ebene zu bringen, „ob der ausführbare Track wirklich existiert“.

5. Nachweis theoretischer Eigenschaften und relativer Vollständigkeit

v1 sagt nur „Verifizierungsfehlerkorrektur kann die Zuverlässigkeit verbessern“, aber es gibt keine mathematische Grenze. v2 macht die algorithmischen Eigenschaften deutlich: VERA-UAV behauptet nicht, dass LLM selbst vollständig ist, sondern behauptet vielmehr, dass es relative Vollständigkeit unter den Annahmen eines endlichen DSL, eines entscheidbaren Verifizierers und eines vollständigen zugrunde liegenden Planers hat.

5.1 Formaler Rahmen

Diskretisieren Sie die städtische Karte in geringer Höhe in eine begrenzt gewichtete Karte:

Double subscripts: use braces to clarifyG=(V,E,w), \quad |V|<\infty, \quad |E|<\infty. $$Jeder Knoten $v\in V$ trägt eine Reihe atomarer Vorschläge $L(v)$, wie zum Beispiel „Ziel_A“, „Gebäude_7_Margin“, „Flugverbotszone“, „Altitude_Layer_3“. Trajektorien sind endliche Folgen:

\tau = (v_0, v_1, \ldots, v_T), \quad (v_t,v_{t+1})\in E.

ä

\mathcal{D}_{H,D} = {\psi: \mathrm{Tiefe}(\psi)\le D,\ \mathrm{Horizont}(\psi)\le H,\ \mathrm{Entitäten}(\psi)\subseteq \mathcal{E}(\mathcal{M})}.

ä ß

C(\psi)=(\varphi_{\mathrm{LTL}},\varphi_{\mathrm{STL}}).

ü

V(\tau, C(\psi)) = \begin{Fälle} \mathrm{PASS}, & \tau \models \varphi_{\mathrm{LTL}}\ \land\ \rho(\tau,\varphi_{\mathrm{STL}})>0,\ \mathrm{FAIL}(\eta), & \text{otherwise}, \end{Fälle}

You can't use 'macro parameter character #' in math mode Dabei ist $\eta$ ein Gegenbeispiel, ein nicht gesättigter Kern oder eine Robustheitsspur. ### 5.2 Algorithmus-Pseudocode ```text Algorithm VERA-UAV Input: natural language x_NL, map M, initial state s0 Output: verified trajectory tau or UNSAT / NEED_CLARIFICATION 1: Q ← LLM_PROPOSE(x_NL, M) 2: Q ← TYPECHECK_AND_RANK(Q) 3: Visited ← ∅ 4: for iter = 1 ... B do 5: if Q has no unvisited candidate: 6: Q ← Q ∪ SYMBOLIC_ENUMERATE_NEXT(D, H) 7: if Q still has no unvisited candidate: 8: return UNSAT 9: ψ ← POP_UNVISITED(Q, Visited) 10: Visited ← Visited ∪ {ψ} 11: if ψ has missing entity or underspecified field: 12: η ← type / grounding diagnostic 13: Q ← Q ∪ REPAIR(ψ, η) 14: if all remaining candidates require the same external information: 15: return NEED_CLARIFICATION 16: continue 17: (φ_LTL, φ_STL) ← COMPILE(ψ) 18: if compiler or syntax verifier fails: 19: η ← compiler diagnostic 20: Q ← Q ∪ REPAIR(ψ, η) 21: continue 22: τ ← COMPLETE_PLANNER(G, s0, φ_LTL, φ_STL) 23: if τ exists and VERIFY(τ, φ_LTL, φ_STL) = PASS: 24: return τ 25: η ← counterexample / unsat core / robustness trace 26: Q ← Q ∪ LLM_REPAIR(ψ, η) 27: if LLM repair budget exhausted: 28: Q ← Q ∪ SYMBOLIC_ENUMERATE(ψ, η, D, H) 29: return UNSAT ``` ### 5.3 Satz 1: Terminierbarkeit **Satz 1 (Beendigung).** Wenn der TaskIR DSL $\mathcal{D}_{H,D}$ endlich ist und der Algorithmus ein endliches Kandidatenbudget $B$ festlegt, muss VERA-UAV eine verifizierte Flugbahn, „UNSAT“ oder „NEED_CLARIFICATION“ in endlichen Schritten zurückgeben.**Beweisskizze.** Jedes Mal, wenn ein nicht besuchter Kandidat in der Warteschlange $Q$ auftaucht, wird TaskIR verwendet, um eine wiederholte Erweiterung durch „Besucht“ zu vermeiden. Die maximale Anzahl von Runden der LLM-Reparatur ist begrenzt, der Symbolaufzählungsraum $\mathcal{D}_{H,D}$ ist begrenzt und die äußere Schleife kann höchstens $B$ Mal ausgeführt werden. Daher kann der Algorithmus nicht unendlich laufen. Jeder Zweig kehrt entweder zurück oder tritt in die nächste endliche Schleife ein. Zertifizierung abgeschlossen. ### 5.4 Satz 2: Sicherheit und Zuverlässigkeit **Theorem 2 (Solidität).** Wenn VERA-UAV eine Flugbahn $\tau$ zurückgibt, erfüllt $\tau$ angesichts des Kartenmodells, der Monitorsemantik und der Genauigkeit der Flugbahndiskretisierung die kompilierte LTL/STL-Spezifikation:

\tau \models \varphi_{\mathrm{LTL}} \quad \text{und} \quad \rho(\tau,\varphi_{\mathrm{STL}})>0.

\mathrm{FSR} = \frac{#{\mathrm{unsicher\ aber\ zurückgegeben\ als\ ausführbare Datei}}}{#{\mathrm{alle\ zurückgegeben\ ausführbare Datei}}}.

You can't use 'macro parameter character #' in math mode Im AAAI-Papier sollte FSR als der kritischste negative Indikator in Richtung Sicherheit angesehen werden. Das Hauptverkaufsargument von VERA-UAV besteht nicht darin, für alle Aufgaben „Leistung“ zu haben, sondern darin, falsche Sicherheit zu vermeiden. **Statistischer Test** - Für binäre Indikatoren wie ESS-, FSR- und UNSAT-Erkennung verwenden Sie den gepaarten McNemar-Test. - Für kontinuierliche Indikatoren wie Robustheit, Optimalitätslücke, Laufzeit usw. verwenden Sie den gepaarten Bootstrap-95-%-KI- und Wilcoxon-Signed-Rank-Test. - Bei mehreren Basislinienvergleichen wird die Holm-Bonferroni-Korrektur verwendet. - Schlussfolgerungen werden nur dann in den Haupttext geschrieben, wenn $p<0,05$ und die Effektgröße den Vorregistrierungsschwellenwert erreicht. **Erfolgskriterien** Die Mindestbedingungen für die Feststellung der Hauptschlussfolgerung der AAAI:1. Der ESS der VERA-UAV-Vollversion ist deutlich höher als der der Basislinie im LTLCodeGen-Stil und im T3-Stil. 2. Der FSR von VERA-UAV Full ist deutlich niedriger als bei allen reinen LLM-Basislinien. 3. Nach dem Entfernen des STL-Robustheitsfeedbacks nehmen Fehler im Zusammenhang mit kontinuierlichen Sicherheitsbeschränkungen erheblich zu. 4. Symbolischer Fallback sorgt für messbare Gewinne bei LLM-Reparaturfehlerproben. ### 8.4 Generalisierungsexperiment Generalisierungsdimension: - Keine Karte gesehen. - Kein Entitätsname gesehen. - Paraphrase in natürlicher Sprache. - Längere Timing-Kombinationen. - Engeres Zeitfenster. - Erhöhung des Anteils unbefriedigter Aufgaben. Generalisierungsexperimente konzentrieren sich auf die Meldung, ob VERA-UAV unerfüllbare oder mehrdeutige Aufgaben identifizieren kann, und nicht auf die Ausgabe von Fehlerverläufen. ### 8.5 Fallstudie Bereiten Sie mindestens drei Visualisierungsfälle vor: 1. **Syntaxreparaturfall**: LLM-Ausgabe ist illegales STL, Spot/RTAMT meldet einen Fehler, Systemreparatur. 2. **Flugbahnsicherheitsnachweis**: LTL ist erfüllt, aber die STL-Robustheit ist negativ, und das System wird nach der Umleitung positiv. 3. **Unerfüllbarer Fall**: Benutzeranforderungen widersprechen sich und das System gibt „UNSAT“ aus. ### 8.6 AAAI-Haupttext-Diagrammplan Der Haupttextraum von AAAI ist sehr begrenzt und die Diagramme müssen dem Kernargument dienen. Es wird empfohlen, nur fünf Arten von Diagrammen in den Haupttext aufzunehmen und für die anderen den Anhang zu verwenden:| Diagramm | Ziel | Platzierung | |------|------|----------| | Abbildung 1: VERA-UAV-Pipeline | Ein Blick auf den geschlossenen Kreislauf von getippter IR, Überprüfung, Reparatur und Fallback | Methode | | Tabelle 1: Positionierungsmatrix der Kernliteratur | Beweist, dass es sich bei diesem Artikel nicht um eine einfache NL-zu-LTL-Anwendung handelt | Verwandte Arbeiten | | Tabelle 2: Hauptexperimentergebnisse | paarweiser Vergleich von ESS, FSR, Robustheit, Laufzeit | Experimente | | Abbildung 2: Stapeldiagramm der Fehlertaxonomie | veranschaulicht, welche Fehlertypen die Methode hauptsächlich reduziert | Experimente | | Abbildung 3: Verlauf der Fallstudie | Zeigt, wie durch Gegenbeispiel-Feedback die negative Robustheit in eine positive | korrigiert werden kann Experimente / Anhang | Es wird nicht empfohlen, den Eingabeaufforderungsabschnitt, die komplette DSL-Grammatik oder alle Karten-Screenshots im Hauptartikel zu vergrößern. Diese Inhalte sollten im Code-/Datenanhang platziert werden, um das Beitragsargument nicht zu verdrängen. --- ## 9. Design des Ablationsexperiments| Ablation | Variante | Zweck | |--------|------|------| | Entfernen Sie eingegebenes IR | Direkte LTL/STL-Generierung | Überprüfen Sie, ob eine strukturierte Zwischendarstellung die Zuverlässigkeit verbessert | | Gegenbeispiel-Feedback entfernen | Allgemeiner Wiederholungsversuch | Überprüfen Sie, ob ein Gegenbeispiel effektiver ist als ein normaler Wiederholungsversuch | | STL-Robustheitsfeedback entfernen | Nur LTL-Überprüfung | Die Bedeutung der Überprüfung kontinuierlicher Sicherheitsbeschränkungen | | One-Shot-Reparatur | Maximal 1 Mal reparieren | Bewerten Sie die Vorteile von Reparaturrunden | | iterative Reparatur | Bis zu 3 Mal reparieren | Bewerten Sie die Obergrenze mehrerer Reparaturrunden | | Verschiedene Modellgrößen | Qwen3-8B / Qwen3-14B / DeepSeek-R1-Distill-Qwen-14B | Bewerten Sie die Beziehung zwischen Modellfähigkeit und Verifizierungsrahmen | | UNSAT-Erkennung entfernen | Trace-Generierung erzwingen | Überprüfen Sie den Beitrag der Denial-of-Antwort-Fähigkeit zur Sicherheit | | Symbol-Fallback entfernen | Nur LLM-Reparatur | Überprüfen Sie den Beitrag relativer Vollständigkeitskomponenten zur Wiederherstellung nach Fehlern | | Endgültige Überprüfung des Planers entfernen | Überprüfen Sie nur Formeln, jedoch keine Trajektorien | Beweisen Sie, dass die Ausführung einer geschlossenen Schleife nicht optional ist | Der Kern des Ablationsexperiments besteht nicht darin, „zu beweisen, dass die Komponenten wirksam sind“, sondern herauszufinden, welche Komponenten am meisten zu den Sicherheits- und Leistungsindikatoren beitragen, die AAAI-Gutachtern am meisten am Herzen liegen. --- ## 10. Bewertungsindikatoren ### 10.1 Indikatoren für die Spezifikationsgenerierung| Indikatoren | Definition | |------|------| | Syntaxgültigkeit | Ist LTL/STL für den Parser akzeptabel | | Genauigkeit der Erdung des Unternehmens | Ob die Befehlsentität korrekt der Kartenentität zugeordnet ist | | Semantisches F1 | Generieren Sie Präzision / Rückruf / F1 des TaskIR-Felds und des Gold-TaskIR | | Semantische Übereinstimmung | Ob die generierte Spezifikation äquivalent oder annähernd äquivalent zu Gold TaskIR / Goldformel | ist | UNSAT-Erkennungsgenauigkeit | Ob die unerfüllbare Aufgabe korrekt identifiziert wurde | | Klärgenauigkeit | Ob die Fuzzy-Aufgabe „NEED_CLARIFICATION“ auslöst | | Falsche Ausführrate | Der Anteil unerfüllbarer oder mehrdeutiger Aufgaben, die falsch ausgeführt werden | ### 10.2 Planungsausführungsindikatoren | Indikatoren | Definition | |------|------| | ESS | Anteil der Aufgaben, die gleichzeitig Semantik, realisierbare Trajektorien, LTL, STL und Sicherheitsbeschränkungen erfüllen | | FSR | Anteil unsicherer Aufgaben, die fälschlicherweise als sicher zur Ausführung markiert wurden | |Mittlere STL-Robustheit |Die durchschnittliche Robustheit der endgültigen Flugbahn gegenüber der STL-Spezifikation | | STL-Robustheit im ungünstigsten Fall | Verteilung der minimalen Robustheit pro Trajektorie | | Mindestsicherheitsmarge | Mindestabstand von Hindernissen in der Flugbahn | | Optimalitätslücke | $(J(\tau)-J^\star)/J^\star$ | | Weglänge / Flugzeit | Flugbahnkosten und Flugzeit | ### 10.3 Reparatureffizienzanzeige| Indikatoren | Definition | |------|------| | Reparaturerfolgsquote | Reparaturerfolgsrate nach fehlgeschlagener Überprüfung | | Fail-to-Pass-Konvertierung | Der Anteil der ersten fehlgeschlagenen Proben, die nach der Reparatur bestehen | | Durchschnittliche Reparaturrunden | Durchschnittliche Reparaturrunden | | Fallback-Beitrag | Anteil der LLM-Reparaturfehler, aber symbolischer Fallback-Erfolg | | Laufzeitaufwand | Zusätzliche Zeit durch Reparaturmechanismus | | Token-Overhead | Korrigieren Sie das durch Eingabeaufforderung und Diagnose verursachte Token-Inkrement | ### 10.4 Details zur Indikatorberechnung Das Hauptexperiment muss die folgenden Indikatoren direkt im Code implementieren, um eine manuelle Anordnung während der Phase des Papierschreibens zu vermeiden: **Semantisches F1** Reduzieren Sie TaskIR in einen Satz von Einschränkungen auf Feldebene $\mathcal{C}$, wie „reach(A)“, „avoid(zone_B)“, „time_window(A,30)“. Der Vorhersagesatz sei $\hat{\mathcal{C}}$ und der Goldstandardsatz sei $\mathcal{C}^\star$:

P = \frac{|\hat{\mathcal{C}}\cap \mathcal{C}^\star|}{|\hat{\mathcal{C}}|}, \quad R = \frac{|\hat{\mathcal{C}}\cap \mathcal{C}^\star|}{|\mathcal{C}^\star|}, \quad F1 = \frac{2PR}{P+R}.

ö ß

\mathrm{SVR} = \frac{#{\tau: Kollision \lor nofly \lor height_violation \lor \rho(\tau,\varphi_{\mathrm{STL}})\le 0}} {#{\mathrm{zurückgegebene\ Trajektorien}}}.

ä ü

\mathrm{Gap}(\tau)=\frac{J(\tau)-J^\star}{\max(J^\star,\epsilon)}.

ä ü ä

\mathrm{FailToPass} = \frac{#{\mathrm{initial\ fail,\ final\ pass}}} {#{\mathrm{initial\ fail}}}, \quad \mathrm{FallbackContribution} = \frac{#{\mathrm{LLM\ Repair\ Fail,\ Symbolic\ Fallback\ Pass}}} {#{\mathrm{letzter\ Durchgang}}}.