論文 E 実験タスクブック v2: AAAI の検証とエラー修正 UAV 言語計画

このラウンドでは「V1 バージョンでの直接修正」が必要なため、このファイルは依然として「paper-e-vera-uav-experiment-taskbook-v1-20260517.md」というファイル名を使用しています。テキスト、タイトル、リリースノートはすべて v2 にアップグレードされました。この記事は最終的な論文草案ではなく、実行可能な実験課題の記述です。論文 E の研究の位置づけ、実際に引用可能な文書、アルゴリズムのソリューション、データ構築、比較実験、アブレーション実験、評価指標、理論的完全性の境界、およびその後の AAAI/T-ITS 推進計画を明確にします。 2026 年 5 月 19 日の補足的な焦点は、データ漏洩の防止、障害分類、パラメータの予算編成、指標の式、チャートの計画、および AAAI コンプライアンスリスクです。

1. 研究の背景と目的

都市部の低高度 UAV ミッション計画は、「エンジニアが事前に設定したルート」から「自然言語ミッション主導型」に移行しつつあります。実際のアプリケーションでは、オペレーターは次のような指示を与える可能性が高くなります。

「まず3号館東側ファサードを確認してから、屋上の着陸地点に行ってお待ちください。」
「病院上空を避け、30秒以内に臨時分娩エリアに到達してください。」
「南通路が占有されている場合は、西通路を迂回してください。ただし、全体を通して 20 メートル以上の安全な距離を保ちます。」

これらの指示には、意味の理解、時間的順序、空間的制約、連続軌道の安全性、および到達可能性の判断が同時に含まれます。大規模言語モデル (LLM) は、自然言語を理解して候補計画を生成することに優れていますが、出力計画が物理空間で実行可能であることは保証できませんし、航空安全上の制約が満たされていることも保証できません。形式的手法は、線形時相論理 (LTL) や信号時相論理 (STL) など、検証可能なセマンティクスを与えるのに適していますが、直接手書きで仕様を作成するには専門知識が必要であり、専門家以外のオペレーターが対応するのは困難です。

既存の研究では、自然言語から LTL への翻訳により、ロボットタスク仕様を作成するしきい値を大幅に下げることができることが証明されています。たとえば、Lang2LTL は複雑なナビゲーションコマンドを LTL に変換し、目に見えない環境で汎化評価を実行します [1]。 NL2LTL は、自然言語から LTL までのオープンソース Python パッケージを提供します [2]。 LTLCodeGen は、コード生成を使用して LTL の文法の正確さを改善し、それをロボットの経路計画に統合します [3]。 ConformalNL2LTL はさらに、翻訳精度を保証するために等角予測の使用を試みます [4]。これらの研究は、この研究の重要な基盤を提供します。しかし、低高度 UAV シナリオの場合、NL から LTL への変換を行うだけでは十分ではありません。 UAV ミッションには 3 つの追加要件があります。

継続的な安全制約: 飛行高度、速度、障害物距離、時間枠などの制約は、当然連続信号に対する制約であり、STL の堅牢性によって評価するのがより適しています。
実行可能な軌道閉ループ: 仕様が正しいことは、軌道が実行可能であることを意味するものではなく、マップ、ダイナミクス、プランナーによって検証される必要があります。
エラーは修正可能: LLM エラーはエラーとして判断されるだけでなく、検証者によって反例または堅牢性フィードバックに変換され、LLM 修正が実行される必要があります。

したがって、この記事では、VERA-UAV: UAV 自然言語タスク用の検証およびエラー修正神経記号計画フレームワークを提案します。 AAAI バージョンでは、次のような重要な質問に答えることが優先されます。

自然言語による UAV ミッションが与えられた場合、ネイティブのオープンソース LLM は、合理的に見えても安全であることが証明されていないテキストの計画を生成するだけでなく、検証可能、修復可能、実行可能な LTL/STL ミッションの仕様と軌道をどのように生成できるのでしょうか?

AAAI のメインカンファレンスバージョンは、AI プランニング、神経記号検証、LLM 自己修復に焦点を当てています。 AirSim、実際の低空物流、複数の UAV 空域スループットなどのシステムレベルのコンテンツは、後続の T-ITS 拡張バージョンに組み込まれる予定です。

2. 問題の定義と中心となる前提

2.1 入力と出力

UAV タスクインスタンスを指定すると、次のようになります。

このうち、は自然言語タスク命令、はセマンティックアノテーションを備えた都市低空地図、は UAV の初期状態です。マップには、建物、飛行禁止区域、通行可能な空域、着陸地点、検査対象、動的障害物、高度レベルが含まれています。

システム出力:

\varphi_{\text{LTL}} = G(\neg 衝突) \wedge F(reach(goal)) \wedge G(\neg enter(no_fly_zone))

は 連 続 信 号 制 約 を 表 現 す る た め に 使 用 さ れ ま す 。

\varphi_{\text{STL}} = G_{[0,T]}(d_{\text{obs}}(t) \ge d_{\min}) \ウェッジ G_{[0,T]}(h_{\min} \le h(t) \le h_{\max}) \ウェッジ F_{[0,30]}(リーチ(目標))

こ こ で 、 は か ら 最 も 近 い 障 害 物 ま で の 距 離 、 は 飛 行 高 度 で す 。 ま た は 同 等 の モ ニ タ ー 出 力 の 堅 牢 性

軌道が仕様を満たすことを示します。の場合、検証者は違反条項、違反時間、および最小安全マージンを返します。

4.4 反例のドライバーの修復

バリデーターは単に「pass/fail」を返すのではなく、構造化された診断を返します。

{
  "status": "FAILED",
  "stage": "STL_ROBUSTNESS",
  "violated_clause": "G[0,T](distance_to_obstacle >= 10)",
  "counterexample_trace": [
    {"t": 14.2, "x": 38, "y": 51, "z": 30, "distance_to_obstacle": 6.4}
  ],
  "robustness": -3.6,
  "repair_hint": "Increase safety margin or route around building_7 west side."
}

LLM の修復プロンプトではフリープレイは必要ありませんが、TaskIR の関連フィールドを変更することのみが必要です。

你生成的 TaskIR 在 STL 验证中失败。
失败子句：G[0,T](distance_to_obstacle >= 10)
反例：t=14.2s 时距离 building_7 仅 6.4m。
请只修改 route constraint 或 safety margin，不要改变用户原始目标。
输出新的 TaskIR JSON。

この設計の焦点は、LLM の検索スペースを削減し、修復動作を説明可能、記録可能、および再現可能にすることです。

連続したラウンド後に LLM 修復が失敗した場合、シンボル列挙フォールバックに入ります。列挙スコープは、TaskIR DSL の深さ、マップエンティティセット、許可される制約テンプレート、および最大タスク範囲によって制限されます。列挙子は、安全な距離、迂回側、タイムウィンドウ、ターゲットシーケンス、フォールバックランディングパッドなどの診断結果に基づいて、最も関連性の高いフィールドの拡張を優先します。

4.5 軌道の生成

AAAI バージョンでは、軽量で再現可能な軌道ジェネレーターを使用します。

2D グリッド A*: 基本的なリーチ回避タスクおよび連続タスク用。
3D グリッド A*: 高さレベルと都市の低高度の廊下に使用されます。
RRT*: 継続的な空間補足検証用。
MPC-lite/軌跡スムージング: 回転半径、速度変化、高さ変化が単純化された力学制約を満たしているかどうかを確認するために使用されます。

軌道ジェネレーターはこの記事の革新的なものではありません。その機能は、仕様の変換の問題を「実行可能トラックが本当に存在するかどうか」というレベルまで進めることです。

5. 理論的特性と相対的な完全性の証明

v1 には「検証エラーの修正により信頼性が向上する」とだけ書かれていますが、数学的な境界はありません。 v2 はアルゴリズムの特性を明確にします。VERA-UAV は、LLM 自体が完全であるとは主張しませんが、有限の DSL、決定可能な検証者、および完全な基礎となるプランナーの仮定の下で 相対的な完全性 があると主張します。

5.1 正式な設定

都市の低高度マップを限定された重み付きマップに離散化します。

Double subscripts: use braces to clarifyG=(V,E,w)、\quad |V|<\infty、\quad |E|<\infty。 $$V$ の各ノード $v\ は、`goal_A`、`building_7_margin`、`no_fly_zone`、`altitude_layer_3` などの原子命題 $L(v)$ のセットを保持します。軌跡は有限シーケンスです。

\tau = (v_0, v_1, \ldots, v_T), \quad (v_t,v_{t+1})\in E.

は 、 限 定 さ れ た 構 文 と し て 定 義 さ れ て い ま す 。

\mathcal{D}_{H,D} = {\psi: \mathrm{深さ}(\psi)\le D,\ \mathrm{horizon}(\psi)\le H,\ \mathrm{entities}(\psi)\subseteq \mathcal{E}(\mathcal{M})}。

コ ン パ イ ラ は を 仕 様 に コ ン パ イ ル し ま す 。

C(\psi)=(\varphi_{\mathrm{LTL}},\varphi_{\mathrm{STL}})。

検 証 者 は 、 候 補 の 軌 道 が 仕 様 を 満 た し て い る か ど う か を 判 断 し ま す 。

V(\タウ, C(\psi)) = \begin{ケース} \mathrm{PASS}, & \tau \models \varphi_{\mathrm{LTL}}\ \land\ \rho(\tau,\varphi_{\mathrm{STL}})>0,\ \mathrm{FAIL}(\eta)、& \text{そうでない場合}、 \end{件}

You can't use 'macro parameter character #' in math mode $\eta$ は反例、unsat コア、またはロバストネス トレースです。 ### 5.2 アルゴリズムの擬似コード ```text Algorithm VERA-UAV Input: natural language x_NL, map M, initial state s0 Output: verified trajectory tau or UNSAT / NEED_CLARIFICATION 1: Q ← LLM_PROPOSE(x_NL, M) 2: Q ← TYPECHECK_AND_RANK(Q) 3: Visited ← ∅ 4: for iter = 1 ... B do 5: if Q has no unvisited candidate: 6: Q ← Q ∪ SYMBOLIC_ENUMERATE_NEXT(D, H) 7: if Q still has no unvisited candidate: 8: return UNSAT 9: ψ ← POP_UNVISITED(Q, Visited) 10: Visited ← Visited ∪ {ψ} 11: if ψ has missing entity or underspecified field: 12: η ← type / grounding diagnostic 13: Q ← Q ∪ REPAIR(ψ, η) 14: if all remaining candidates require the same external information: 15: return NEED_CLARIFICATION 16: continue 17: (φ_LTL, φ_STL) ← COMPILE(ψ) 18: if compiler or syntax verifier fails: 19: η ← compiler diagnostic 20: Q ← Q ∪ REPAIR(ψ, η) 21: continue 22: τ ← COMPLETE_PLANNER(G, s0, φ_LTL, φ_STL) 23: if τ exists and VERIFY(τ, φ_LTL, φ_STL) = PASS: 24: return τ 25: η ← counterexample / unsat core / robustness trace 26: Q ← Q ∪ LLM_REPAIR(ψ, η) 27: if LLM repair budget exhausted: 28: Q ← Q ∪ SYMBOLIC_ENUMERATE(ψ, η, D, H) 29: return UNSAT ``` ### 5.3 定理 1: 終了可能性 **定理 1 (終了)。** TaskIR DSL $\mathcal{D}_{H,D}$ が有限で、アルゴリズムが有限の候補バジェット $B$ を設定する場合、VERA-UAV は検証された軌道、`UNSAT` または `NEED_CLARIFICATION` を有限ステップで返さなければなりません。**プルーフ スケッチ。** 未訪問の候補 TaskIR がキュー $Q$ に出現するたびに、`Visited` による繰り返しの展開を避けるために使用されます。 LLM 修復の最大ラウンド数は制限されており、シンボル列挙空間 $\mathcal{D}_{H,D}$ は制限されており、外側のループは最大 $B$ 回実行できます。したがって、アルゴリズムを無限に実行することはできません。各分岐は、戻るか、次の有限ループに入ります。認証が完了しました。 ### 5.4 定理 2: 安全性と信頼性 **定理 2 (健全性)。** VERA-UAV が軌道 $\tau$ を返す場合、マップ モデル、モニター セマンティクス、軌道離散化精度が与えられると、$\tau$ はコンパイルされた LTL/STL 仕様を満たします。

\tau \models \varphi_{\mathrm{LTL}} \quad \text{および} \quad \rho(\tau,\varphi_{\mathrm{STL}})>0。

\mathrm{FSR} = \frac{#{\mathrm{安全ではない\ しかし\ 実行可能ファイルとして\ 返されました}}}{#{\mathrm{すべて\ 返された\ 実行可能ファイル}}}。

You can't use 'macro parameter character #' in math mode AAAI の論文では、FSR は安全保障の方向において最も重要なマイナスの指標と見なされるべきです。 VERA-UAV の主なセールスポイントは、すべてのタスクに対して「出力」を行うことではなく、誤ったセキュリティを回避することです。 **統計テスト** - ESS、FSR、UNSAT 検出などのバイナリ指標の場合は、対応のあるマクネマー テストを使用します。 - 堅牢性、最適性ギャップ、実行時間などの継続的な指標の場合は、ペアのブートストラップ 95% CI および Wilcoxon 符号付きランク テストを使用します。 - 複数のベースライン比較では、ホルム・ボンフェローニ補正を使用します。 - 結論は、$p<0.05$ かつ効果量が事前登録閾値に達した場合にのみ本文に書き込まれます。 **成功基準** AAAI の主な結論を確立するための最低条件:1. VERA-UAV full の ESS は、LTLCodeGen スタイルおよび T3 スタイルのベースラインの ESS よりも大幅に高くなります。 2. VERA-UAV フルの FSR は、すべての LLM のみのベースラインよりも大幅に低くなります。 3. STL の堅牢性フィードバックを削除した後、継続的な安全制約に関連する障害が大幅に増加します。 4. シンボリック フォールバックにより、LLM 修復障害サンプルに測定可能な利益がもたらされます。 ### 8.4 一般化実験 一般化の次元: - 地図が表示されません。 - エンティティ名が表示されません。 - 自然言語の言い換え。 - より長いタイミングの組み合わせ。 - より厳しい時間枠。 - 満たされていないタスクの割合が増加します。 一般化実験では、エラー軌跡を出力するのではなく、VERA-UAV が満足できないタスクや曖昧なタスクを識別できるかどうかを報告することに重点を置いています。 ### 8.5 ケーススタディ 少なくとも 3 つの視覚化ケースを準備します。 1. **構文修復のケース**: LLM 出力が不正な STL であり、スポット/RTAMT がエラーを報告し、システムが修復されます。 2. **軌道安全性の場合**: LTL は満たされていますが、STL の堅牢性はマイナスであり、システムは迂回後にプラスに転じます。 3. **満足できないケース**: ユーザーの要件が矛盾しており、システムは「UNSAT」を出力します。 ### 8.6 AAAI 本文チャート計画 AAAI の本文スペースは非常に狭いため、グラフは核心的な議論を提供する必要があります。本文に含めるグラフは 5 種類のみとし、それ以外については付録を使用することが推奨されます。|ダイアグラム |ターゲット |配置 | |------|------|----------| |図 1: VERA-UAV パイプライン |型付き IR、検証、修復、フォールバックの閉ループの概要 |方法 | |表 1: コア文献の位置付けマトリックス |この記事が単純な NL から LTL への応用ではないことを証明します。関連作品 | |表 2: 主な実験結果 | ESS、FSR、堅牢性、ランタイムの一対比較 |実験 | |図 2: 障害分類の積み上げグラフ |この方法により主にどのタイプの障害が軽減されるかを示します。実験 | |図 3: ケーススタディの軌跡 |反例フィードバックが負のロバスト性を正にどのように修正できるかを示します。実験 / 付録 | 本文内のプロンプト セクション、完全な DSL 文法、またはすべてのマップのスクリーンショットを拡大することはお勧めできません。これらの内容は、貢献に関する議論を邪魔しないように、コード/データの付録に配置する必要があります。 --- ## 9. アブレーション実験計画|アブレーション |バリアント |目的 | |------|------|------| |型指定された IR を削除する | LTL/STL の直接生成 |構造化中間表現の信頼性が向上するかどうかを検証する | |反例のフィードバックを削除 |一般的な再試行 |反例が通常の再試行より効果的かどうかを検証する | | STL 堅牢性フィードバックを削除 | LTL のみの検証 |継続的な安全制約を検証することの重要性 | |ワンショット修理 |修理は最大 1 回 |修理ラウンドの利点を評価する | |反復修復 |修理は3回まで |複数回の修理の上限を評価する | |さまざまなモデルのサイズ | Qwen3-8B / Qwen3-14B / DeepSeek-R1-Distill-Qwen-14B |モデルの機能と検証フレームワークの関係を評価する | | UNSAT 検出を削除する |トレース生成を強制する |応答拒否機能のセキュリティへの貢献を検証する | |シンボルのフォールバックを削除 | LLM のみの修理 |障害回復に対する相対的な完全性コンポーネントの貢献を検証する | |プランナーの最終確認を削除 |式だけを検証し、軌跡は検証しない |閉ループの実行がオプションではないことを証明する | アブレーション実験の核心は、「コンポーネントが有効であることを証明する」ことではなく、AAAI の審査員が最も懸念している安全性とパフォーマンスの指標にどのコンポーネントが最も貢献しているかを見つけることです。 --- ## 10. 評価指標 ### 10.1 仕様生成インジケーター|指標 |定義 | |------|------| |構文の有効性 | LTL/STL はパーサーに受け入れられますか? |実体の接地精度 |コマンド エンティティがマップ エンティティに正しくマッピングされているかどうか | |セマンティック F1 | TaskIR フィールドとゴールド TaskIR | の精度 / リコール / F1 を生成します。 |セマンティックマッチ |生成された仕様がゴールド TaskIR / ゴールド フォーミュラと同等またはほぼ同等かどうか | | UNSAT 検出精度 |満たせないタスクが正しく特定されているかどうか | |明確化の精度 |ファジータスクが「NEED_CLARIFICATION」をトリガーするかどうか | |不正実行可能率 |不適切に実行された、満足できないタスクまたはあいまいなタスクの割合 | ### 10.2 計画実行指標 |指標 |定義 | |------|------| |エスエス |セマンティクス、実現可能な軌道、LTL、STL、および安全制約を同時に満たすタスクの割合 | | FSR |誤って実行しても安全であるとマークされた安全でないタスクの割合 | |平均 STL ロバスト性 |STL 仕様に対する最終軌道の平均ロバスト性 | |最悪の場合の STL の堅牢性 |軌道ごとの最小ロバスト性の分布 | |最小安全マージン |軌道上の最小障害物距離 | |最適性のギャップ | $(J(\tau)-J^\star)/J^\star$ | |飛行距離 / 飛行時間 |軌道コストと飛行時間 | ### 10.3 修理効率指標|指標 |定義 | |------|------| |修理成功率 |検証失敗後の修復成功率 | |フェイルツーパス変換 |初期に失敗したサンプルのうち、修復後に合格するサンプルの割合 | |平均修理回数 |平均修理回数 | |フォールバック貢献 | LLM 修復は失敗したが、象徴的なフォールバックは成功した割合 | |実行時のオーバーヘッド |修復機構による余分な時間 | |トークンのオーバーヘッド |プロンプトと診断によって引き起こされるトークンの増加を修正 | ### 10.4 インジケーター計算の詳細 主要な実験では、論文作成段階での手動の調整を避けるために、次のインジケーターをコードに直接実装する必要があります。 **セマンティック F1** TaskIR をフィールドレベルの制約 $\mathcal{C}$ のセット (`reach(A)`、`avoid(zone_B)`、`time_window(A,30)` など) にフラット化します。予測セットを $\hat{\mathcal{C}}$ 、ゴールドスタンダード セットを $\mathcal{C}^\star$ とします。

P = \frac{|\hat{\mathcal{C}}\cap \mathcal{C}^\star|}{|\hat{\mathcal{C}}|}, \quad R = \frac{|\hat{\mathcal{C}}\cap \mathcal{C}^\star|}{|\mathcal{C}^\star|}, \quad F1 = \frac{2PR}{P+R}。

安 全 違 反 率

\mathrm{SVR} = \frac{#{\tau: 衝突 \lor nofly \lor 高度_violation \lor \rho(\tau,\varphi_{\mathrm{STL}})\le 0}} {#{\mathrm{返された\ 軌道}}}。

最 適 性 の ギ ャ ッ プ ゴ ー ル ド ま た は オ ラ ク ル の プ ラ ン ナ ー が 最 適 な コ ス ト を 与 え る こ と が で き る 場 合

\mathrm{ギャップ}(\tau)=\frac{J(\tau)-J^\star}{\max(J^\star,\epsilon)}。

タ ス ク が ま た は の 場 合 、 最 適 性 ギ ャ ッ プ は 計 算 さ れ ず 、 認 識 精 度 に 別 途 カ ウ ン ト さ れ ま す 。 修 理 効 率

\mathrm{FailToPass} = \frac{#{\mathrm{最初\ 失敗、\ 最終\ 合格}}} {#{\mathrm{初期\ 失敗}}}、 \クアッド \mathrm{フォールバックコントリビューション} = \frac{#{\mathrm{LLM\修復\失敗、\シンボリック\フォールバック\パス}}} {#{\mathrm{最終\パス}}}。