論文 E 実験タスク ブック v2: AAAI の検証とエラー修正 UAV 言語計画

v2 は、AAAI のトップカンファレンスへの提出に焦点を当てています。30 以上の実際の引用可能な定期カンファレンス/トップジャーナル/主要なプレプリント文書を補足し、実験指標、比較およびアブレーションスキーム、VERA-UAV の再現可能な実験プロトコルを深め、相対的な完全性の数学的証明を提供します。

論文 E 実験タスクブック v2: AAAI の検証とエラー修正 UAV 言語計画

このラウンドでは「V1 バージョンでの直接修正」が必要なため、このファイルは依然として「paper-e-vera-uav-experiment-taskbook-v1-20260517.md」というファイル名を使用しています。テキスト、タイトル、リリース ノートはすべて v2 にアップグレードされました。この記事は最終的な論文草案ではなく、実行可能な実験課題の記述です。論文 E の研究の位置づけ、実際に引用可能な文書、アルゴリズムのソリューション、データ構築、比較実験、アブレーション実験、評価指標、理論的完全性の境界、およびその後の AAAI/T-ITS 推進計画を明確にします。 2026 年 5 月 19 日の補足的な焦点は、データ漏洩の防止、障害分類、パラメータの予算編成、指標の式、チャートの計画、および AAAI コンプライアンス リスクです。


1. 研究の背景と目的

都市部の低高度 UAV ミッション計画は、「エンジニアが事前に設定したルート」から「自然言語ミッション主導型」に移行しつつあります。実際のアプリケーションでは、オペレーターは次のような指示を与える可能性が高くなります。

これらの指示には、意味の理解、時間的順序、空間的制約、連続軌道の安全性、および到達可能性の判断が同時に含まれます。大規模言語モデル (LLM) は、自然言語を理解して候補計画を生成することに優れていますが、出力計画が物理空間で実行可能であることは保証できませんし、航空安全上の制約が満たされていることも保証できません。形式的手法は、線形時相論理 (LTL) や信号時相論理 (STL) など、検証可能なセマンティクスを与えるのに適していますが、直接手書きで仕様を作成するには専門知識が必要であり、専門家以外のオペレーターが対応するのは困難です。

既存の研究では、自然言語から LTL への翻訳により、ロボット タスク仕様を作成するしきい値を大幅に下げることができることが証明されています。たとえば、Lang2LTL は複雑なナビゲーション コマンドを LTL に変換し、目に見えない環境で汎化評価を実行します [1]。 NL2LTL は、自然言語から LTL までのオープンソース Python パッケージを提供します [2]。 LTLCodeGen は、コード生成を使用して LTL の文法の正確さを改善し、それをロボットの経路計画に統合します [3]。 ConformalNL2LTL はさらに、翻訳精度を保証するために等角予測の使用を試みます [4]。これらの研究は、この研究の重要な基盤を提供します。しかし、低高度 UAV シナリオの場合、NL から LTL への変換を行うだけでは十分ではありません。 UAV ミッションには 3 つの追加要件があります。

  1. 継続的な安全制約: 飛行高度、速度、障害物距離、時間枠などの制約は、当然連続信号に対する制約であり、STL の堅牢性によって評価するのがより適しています。
  2. 実行可能な軌道閉ループ: 仕様が正しいことは、軌道が実行可能であることを意味するものではなく、マップ、ダイナミクス、プランナーによって検証される必要があります。
  3. エラーは修正可能: LLM エラーはエラーとして判断されるだけでなく、検証者によって反例または堅牢性フィードバックに変換され、LLM 修正が実行される必要があります。

したがって、この記事では、VERA-UAV: UAV 自然言語タスク用の検証およびエラー修正神経記号計画フレームワークを提案します。 AAAI バージョンでは、次のような重要な質問に答えることが優先されます。

自然言語による UAV ミッションが与えられた場合、ネイティブのオープンソース LLM は、合理的に見えても安全であることが証明されていないテキストの計画を生成するだけでなく、検証可能、修復可能、実行可能な LTL/STL ミッションの仕様と軌道をどのように生成できるのでしょうか?

AAAI のメインカンファレンスバージョンは、AI プランニング、神経記号検証、LLM 自己修復に焦点を当てています。 AirSim、実際の低空物流、複数の UAV 空域スループットなどのシステム レベルのコンテンツは、後続の T-ITS 拡張バージョンに組み込まれる予定です。


2. 問題の定義と中心となる前提

2.1 入力と出力

UAV タスク インスタンスを指定すると、次のようになります。

このうち、 は自然言語タスク命令、 はセマンティック アノテーションを備えた都市低空地図、 は UAV の初期状態です。マップには、建物、飛行禁止区域、通行可能な空域、着陸地点、検査対象、動的障害物、高度レベルが含まれています。

システム出力:

You can't use 'macro parameter character #' in math mode\mathcal{O} = (\text{TaskIR}, \varphi_{\text{LTL}}, \varphi_{\text{STL}}, \tau, r) $$ここで、TaskIR は構造化中間表現、$\varphi_{\text{LTL}}$ は離散タイミング タスク仕様、$\varphi_{\text{STL}}$ は連続軌道制約、$\tau$ は候補軌道、$r$ は検証結果です。タスクを満たせない場合、システムは安全でない軌道を強制的に生成する代わりに、「UNSAT」または「NEED_CLARIFICATION」を出力する必要があります。 ### 2.2 タスクの種類 AAAI のメイン実験では、次の 6 種類のタスクを扱います。 |タイプ |例 |主な問題点 | |------|------|----------| |リーチ回避 | A に到達、B を回避 |基本的な到達可能性と障害物回避 | |順序付けられたウェイポイント |最初に A に、次に B に |時間的順序 | |巡回・点検 |パトロールA、B、C |複数のターゲットをカバー | |時間指定配達 | 30秒以内にAに到着 |連続時間の制約 | |緊急着陸 |前方の道路に到達できない場合は、最寄りの着陸地点に移動してください。条件と代替戦略 | |曖昧/不可能 | 「安全な場所に行きなさい」または相互排他的な制約 |明確化と不満足な検出 | ### 2.3 基本的な前提条件 この記事では、LLM 自体が信頼できるとは想定していません。代わりに、この記事では、LLM が次の間違いをよく犯すことを前提としています。 - 不正な構文を使用して LTL/STL を生成します。 - 自然言語にセキュリティ制約がありません。 - マップ内に存在しないエンティティへの参照。 - テキストを満たすが実行できない一連のタスクを指定します。 - 連続軌道における最小距離、高さ、または時間枠の制約の違反。 VERA-UAV の中核となる仮定は次のとおりです。 **検証者がこれらのエラーを構造化された反例、unsat コア、および堅牢性フィードバックに変換できれば、ローカル オープン ソース LLM の修正成功率は純粋なプロンプト リトライよりも大幅に高くなります。さらに、システムが制限された DSL 内でシンボル列挙フォールバックを保持する場合、アルゴリズムは LLM の信頼性に基づいて完全性を確立するのではなく、相対的な完全性を得ることができます。 ** --- ## 3. 関連著作および引用可能な論文 ### 3.1 文献マップの概要v1 の問題の 1 つは、参照が少なすぎることであり、レビュアーに「Lang2LTL / LTLCodeGen に基づいた単なる UAV アプリケーションである」と思われやすいことです。 v2 では、関連作業が 5 つのラインに拡張されます。自然言語から時相論理、LLM プランニングと自己修復、STL/形式検証、シールドとセキュリティ エージェント、UAV-VLN および低高度アプリケーションです。以下の表には、**関連性の高い文書** 37 件がリストされており、それぞれがこの記事で引用されています。|番号 |文学 |会場・状況 |この記事との関係 | |------|------|----------------|----------| | [1] |ラング2LTL | CoRL 2023/PMLR | NL から LTL への接地の直接の開始点 | | [2] | NL2LTL | AAAI 2023 デモ |テンプレート/ツールのベースライン | | [3] | LTLコードジェネレーション | IROS 2025/arXiv |最強の直接ベースライン、コード生成が保証された構文 | | [4] |コンフォーマルNL2LTL | arXiv 2025 |翻訳の信頼性と拒否メカニズムのリファレンス | | [5] | NL2空間 | arXiv 2025/2026 |構造化されたロジック ツリーと空間関係のインスピレーション | | [6] | T3プランナー | arXiv 2025 |独習形式のLLM + STLモーションプランニング直接競争 | | [7] |センチネル | arXiv 2025/2026 |多層的な形式的安全性評価 | | [8] |ロジックガード | arXiv 2025 |時間論理批評家とセキュリティ制約の生成 | | [9] |プロ2ガード | arXiv 2025 |確率的ランタイム監視 | | [10] | LLM を使用した PDDL ドメインでの一般化された計画 | AAAI 2024 |計画に対する検証者/デバッグのフィードバックの価値 | | [11] | LLM 計画の重要な検討 | NeurIPS 2023 | LLM の直接計画機能には限界があることを説明します。 | [12] | LLM+P | arXiv 2023 | LLM + 古典的なプランナーのフレームワーク リファレンス | | [13] |プランベンチ | NeurIPS 2023データセットとベンチマーク | LLM 計画ベンチマーク設計リファレンス | | [14] |反応する | ICLR 2023 |推論とアクションのループのベースライン | | [15] |セイキャン | CoRL 2022 |アフォーダンスに基づいた LLM 計画のベースライン | | [16] |ポリシーとしてコードを記述する | ICRA 2023 | LLM は実行可能プログラム ポリシーを生成します。 | [17] |プログプロンプト | ICRA 2023 / 自律型ロボット |位置ロボットのタスク プランの生成 | | [18] |時間論理ベースのリアクティブなミッションと動作計画 | IEEE T-RO 2009 |ロボットLTLプランニングの古典的な基礎 | | [19] |ロボットのための合成 | 2018 年年次レビュー |形式合成とロボット動作フィードバックのレビュー | | [20] |連続信号の時間特性のモニタリング |フォーマット/FTRTFT 2004 | STLの出発点 | | [21] |時相論理仕様の堅牢性 |理論コンピュータサイエンス 2009 |堅牢性セマンティクスの基礎 | | [22] |実数値信号に対する確実な満足度 | 2010 年のフォーマット | STL ロバストネス計算の基礎 | | [23] | STL 仕様に基づく反応性合成 | HSCC 2015 | STL と制御/計画の結合 | | [24] | STL シンセの診断と修復は | HSCC 2016 |仕様診断・修理理論参考資料 | | [25] |スポット2.0 | ATVA2016 | LTL/オメガオートマトンツール | | [26] | RTAMT | STTT 2024 / arXiv 2025 | STL堅牢性モニター | | [27] |プリズム4.0 | CAV2011 |確率モデル検査ツール | | [28] |シールドによる安全な RL | AAAI 2018 |シールドは安全なクラシックが動作することを保証します。 | [29] |確率的シールド | AAAI 2025 |確率論的なセキュリティの保証とシールド | | [30] |航空VLN | ICCV 2023 | UAV ビジュアル言語ナビゲーション ベンチマーク | | [31] |リアルな UAV-VLN | ICLR 2025 |より現実的な UAV-VLN プラットフォーム、ベンチマーク、手法 | | [32] |アズマ | RA-L/arXiv 2024 | UAV-VLN の CBF セキュリティ制約リファレンス | | [33] |物流VLN | arXiv 2025 |低空配信言語ナビゲーション応用シナリオ | | [34] | UAV-VLN 調査 | arXiv 2026 | UAV-VLN 研究ロードマップと課題 | | [35] | Qwen3 テクニカルレポート | arXiv 2025 |ローカルのオープンソース モデル選択の基礎 | | [36] |ディープシーク-R1 | arXiv 2025 |推論オープンソース モデルの選択の基礎 | | [37] | vLLM/ページドアテンション | SOSP 2023 |マルチモデルローカル推論の実装基盤 |### 3.2 既存の作業における重要なギャップ Lang2LTL、NL2LTL、LTLCodeGen、および ConformalNL2LTL は共同で、NL から LTL への方向が空白の方向ではなくなっていることを示しています [1-4]。したがって、Paper E は単に「自然言語を LTL に翻訳します」と主張することはできません。実際の潜在的な相違点は次のとおりです。 1. **翻訳の正確性から実行の正確性への拡張**: LTLCodeGen は構文の正確性とパス生成 [3] をすでに処理していますが、UAV の高度、速度、障害物距離、および時間ウィンドウには、LTL 式の妥当性だけでなく STL の堅牢性が必要です。 2. **単一生成から検証およびエラー修正の閉ループに拡張**: T3 Planner、LogicGuard、SENTINEL、および Pro2Guard は、正式なフィードバックが具体化された LLM の安全性にとってホット スポットになりつつあると説明しています [6-9]。 VERA-UAV は、反例、unsat コア、ロバストネス トレースを修復信号としてより明示的に扱う必要があります。 3. **LLM ヒューリスティックから比較的完全なアルゴリズムへの拡張**: LLM の自己修復自体は完全ではないことが証明されています。完全性は、「正しく考えられる」モデルからではなく、限定された DSL、決定可能な検証子、およびシンボリック列挙フォールバックから得られる必要があります。 4. **地上ナビゲーションから低高度 UAV への拡張**: AerialVLN と ICLR 2025 の現実的な UAV-VLN の作業では、UAV と地上 VLN の違い、つまり 3 次元の動き、連続的なダイナミクス、空域の安全性、および資源の制約が強調されています [30,31]。これがまさに、VERA-UAV が STL を使用する背後にある動機です。 ### 3.3 投稿およびジャーナル延長の制約 AAAI-26 メイン テクニカル トラックの公式説明では、本文に最大 7 ページの技術コンテンツが含まれることが要求され、作成者は再現性チェックリストに記入する必要があります [38]。したがって、AAAI バージョンは手法、コア実験、再現性に重点を置く必要があり、システム エンジニアリングの内容をあまり拡張することはできません。T-ITS の範囲は、現代の交通システムにおけるセンシング、通信、制御、計画、設計、実装だけでなく、人工知能などの方法論的方向性もカバーしており、学会論文と比べて明確に新たな貢献をもたらすにはジャーナルの拡張が必要です [39]。したがって、今後の ITS ジャーナル版では、空域利用率、ミッション スループット、複数の UAV 調整、通信遅延、運用上の安全性の向上などの都市低空輸送システムの指標を追加する必要があります。 --- ## 4. 提案されたアルゴリズム: VERA-UAV ### 4.1 全体的なプロセス VERA-UAV の正式名称は次のように暫定的に決定されました。 **VERA-UAV: 自律型 UAV 言語プランニングの検証強化修復** システムのプロセスは次のとおりです。 ```text Natural-language UAV instruction ↓ Local open-source LLM ↓ Typed TaskIR ↓ TaskIR-to-LTL/STL compiler ↓ Spot / RTAMT / optional PRISM verification ↓ Counterexample + unsat core + robustness feedback ↓ LLM repair + symbolic enumerative fallback ↓ A* / RRT* / MPC-lite trajectory generation ↓ Final trajectory verification ↓ Executable trajectory or UNSAT / NEED_CLARIFICATION ``` v1 と比較して、v2 の主な変更点は **シンボリック列挙型フォールバック** の追加です。LLM は引き続き主要な候補ジェネレーターですが、LLM が複数回の修復で失敗した場合、システムは限られた TaskIR DSL 内で修復候補を列挙します。この設計は、その後の「相対的な完全性」証明の基礎となります。 ### 4.2 型付き TaskIR TaskIR は、自然言語と形式ロジックの間の構造化インターフェイスです。これにより、LLM が任意の LTL/STL 文字列を直接出力することが回避されるため、構文エラーやエンティティ接地エラーが削減されます。 TaskIR フィールドは次のように設計されています。|フィールド |意味 |例 | |------|------|------| |エンティティ |ディレクティブに含まれるオブジェクト | `建物_3`、`病院_ゾーン`、`着陸パッド_A` | | 「目標」 |達成すべき目標 | `リーチ(着陸パッド_A)` | | '避ける' |避けるべき領域 | `回避(病院ゾーン)` | | `シーケンス` |サブターゲット配列 | `検査(B3_east) -> 土地(A)` | | `metric_bounds` |連続制約 | `高度 [20,120]`、`障害物までの距離 >= 10` | | `時間窓` |時間枠 | `30秒以内に(A)に到達` | | `フォールバック` |代替戦略 | `ブロックされた場合は、nearest_safe_pad に到達します` | | 「不確実性」 |あいまいなフィールドまたは欠落しているフィールド | `NEED_CLARIFICATION(target="安全な場所")` | ### 4.3 TaskIR から LTL/STL へのコンパイル LTL は、離散タイミング構造を表現するために使用されます。

\varphi_{\text{LTL}} = G(\neg 衝突) \wedge F(reach(goal)) \wedge G(\neg enter(no_fly_zone))

使

\varphi_{\text{STL}} = G_{[0,T]}(d_{\text{obs}}(t) \ge d_{\min}) \ウェッジ G_{[0,T]}(h_{\min} \le h(t) \le h_{\max}) \ウェッジ F_{[0,30]}(リーチ(目標))

軌道 が仕様を満たすことを示します。 の場合、検証者は違反条項、違反時間、および最小安全マージンを返します。

4.4 反例のドライバーの修復

バリデーターは単に「pass/fail」を返すのではなく、構造化された診断を返します。

{
  "status": "FAILED",
  "stage": "STL_ROBUSTNESS",
  "violated_clause": "G[0,T](distance_to_obstacle >= 10)",
  "counterexample_trace": [
    {"t": 14.2, "x": 38, "y": 51, "z": 30, "distance_to_obstacle": 6.4}
  ],
  "robustness": -3.6,
  "repair_hint": "Increase safety margin or route around building_7 west side."
}

LLM の修復プロンプトではフリー プレイは必要ありませんが、TaskIR の関連フィールドを変更することのみが必要です。

你生成的 TaskIR 在 STL 验证中失败。
失败子句:G[0,T](distance_to_obstacle >= 10)
反例:t=14.2s 时距离 building_7 仅 6.4m。
请只修改 route constraint 或 safety margin,不要改变用户原始目标。
输出新的 TaskIR JSON。

この設計の焦点は、LLM の検索スペースを削減し、修復動作を説明可能、記録可能、および再現可能にすることです。

連続した ラウンド後に LLM 修復が失敗した場合、シンボル列挙フォールバックに入ります。列挙スコープは、TaskIR DSL の深さ、マップ エンティティ セット、許可される制約テンプレート、および最大タスク範囲によって制限されます。列挙子は、安全な距離、迂回側、タイム ウィンドウ、ターゲット シーケンス、フォールバック ランディング パッドなどの診断結果に基づいて、最も関連性の高いフィールドの拡張を優先します。

4.5 軌道の生成

AAAI バージョンでは、軽量で再現可能な軌道ジェネレーターを使用します。

軌道ジェネレーターはこの記事の革新的なものではありません。その機能は、仕様の変換の問題を「実行可能トラックが本当に存在するかどうか」というレベルまで進めることです。


5. 理論的特性と相対的な完全性の証明

v1 には「検証エラーの修正により信頼性が向上する」とだけ書かれていますが、数学的な境界はありません。 v2 はアルゴリズムの特性を明確にします。VERA-UAV は、LLM 自体が完全であるとは主張しませんが、有限の DSL、決定可能な検証者、および完全な基礎となるプランナーの仮定の下で 相対的な完全性 があると主張します。

5.1 正式な設定

都市の低高度マップを限定された重み付きマップに離散化します。

Double subscripts: use braces to clarifyG=(V,E,w)、\quad |V|<\infty、\quad |E|<\infty。 $$V$ の各ノード $v\ は、`goal_A`、`building_7_margin`、`no_fly_zone`、`altitude_layer_3` などの原子命題 $L(v)$ のセットを保持します。軌跡は有限シーケンスです。

\tau = (v_0, v_1, \ldots, v_T), \quad (v_t,v_{t+1})\in E.

\mathcal{D}_{H,D} = {\psi: \mathrm{深さ}(\psi)\le D,\ \mathrm{horizon}(\psi)\le H,\ \mathrm{entities}(\psi)\subseteq \mathcal{E}(\mathcal{M})}。

C(\psi)=(\varphi_{\mathrm{LTL}},\varphi_{\mathrm{STL}})。

V(\タウ, C(\psi)) = \begin{ケース} \mathrm{PASS}, & \tau \models \varphi_{\mathrm{LTL}}\ \land\ \rho(\tau,\varphi_{\mathrm{STL}})>0,\ \mathrm{FAIL}(\eta)、& \text{そうでない場合}、 \end{件}

You can't use 'macro parameter character #' in math mode $\eta$ は反例、unsat コア、またはロバストネス トレースです。 ### 5.2 アルゴリズムの擬似コード ```text Algorithm VERA-UAV Input: natural language x_NL, map M, initial state s0 Output: verified trajectory tau or UNSAT / NEED_CLARIFICATION 1: Q ← LLM_PROPOSE(x_NL, M) 2: Q ← TYPECHECK_AND_RANK(Q) 3: Visited ← ∅ 4: for iter = 1 ... B do 5: if Q has no unvisited candidate: 6: Q ← Q ∪ SYMBOLIC_ENUMERATE_NEXT(D, H) 7: if Q still has no unvisited candidate: 8: return UNSAT 9: ψ ← POP_UNVISITED(Q, Visited) 10: Visited ← Visited ∪ {ψ} 11: if ψ has missing entity or underspecified field: 12: η ← type / grounding diagnostic 13: Q ← Q ∪ REPAIR(ψ, η) 14: if all remaining candidates require the same external information: 15: return NEED_CLARIFICATION 16: continue 17: (φ_LTL, φ_STL) ← COMPILE(ψ) 18: if compiler or syntax verifier fails: 19: η ← compiler diagnostic 20: Q ← Q ∪ REPAIR(ψ, η) 21: continue 22: τ ← COMPLETE_PLANNER(G, s0, φ_LTL, φ_STL) 23: if τ exists and VERIFY(τ, φ_LTL, φ_STL) = PASS: 24: return τ 25: η ← counterexample / unsat core / robustness trace 26: Q ← Q ∪ LLM_REPAIR(ψ, η) 27: if LLM repair budget exhausted: 28: Q ← Q ∪ SYMBOLIC_ENUMERATE(ψ, η, D, H) 29: return UNSAT ``` ### 5.3 定理 1: 終了可能性 **定理 1 (終了)。** TaskIR DSL $\mathcal{D}_{H,D}$ が有限で、アルゴリズムが有限の候補バジェット $B$ を設定する場合、VERA-UAV は検証された軌道、`UNSAT` または `NEED_CLARIFICATION` を有限ステップで返さなければなりません。**プルーフ スケッチ。** 未訪問の候補 TaskIR がキュー $Q$ に出現するたびに、`Visited` による繰り返しの展開を避けるために使用されます。 LLM 修復の最大ラウンド数は制限されており、シンボル列挙空間 $\mathcal{D}_{H,D}$ は制限されており、外側のループは最大 $B$ 回実行できます。したがって、アルゴリズムを無限に実行することはできません。各分岐は、戻るか、次の有限ループに入ります。認証が完了しました。 ### 5.4 定理 2: 安全性と信頼性 **定理 2 (健全性)。** VERA-UAV が軌道 $\tau$ を返す場合、マップ モデル、モニター セマンティクス、軌道離散化精度が与えられると、$\tau$ はコンパイルされた LTL/STL 仕様を満たします。

\tau \models \varphi_{\mathrm{LTL}} \quad \text{および} \quad \rho(\tau,\varphi_{\mathrm{STL}})>0。

You can't use 'macro parameter character #' in math mode **証明スケッチ。** アルゴリズムは、23 行目の最終検証に合格した後にのみ軌道を返します。最終検証は、LTL 層検証と STL 堅牢性チェックで構成されます。いずれかのチェックが失敗した場合、アルゴリズムは単に診断を生成し、軌道に戻らずに修復を続行します。したがって、すべての戻り軌道は上記の条件を満たします。認証が完了しました。 ### 5.5 定理 3: 相対的な完全性 **定理 3 (相対的な完全性)。** 外部からの説明を必要としないタスク インスタンスについては、次のように仮定します。 1. ユーザーの意図に対して、同等または十分に忠実な TaskIR $\psi^\star \in \mathcal{D}_{H,D}$ が存在します。 2. コンパイラ $C$ は、$\mathcal{D}_{H,D}$ 内のすべての TaskIR に対して意味的に保存された LTL/STL 仕様を生成できます。 3. 基礎となるプランナは、有限グラフ $G$ 上で $C(\psi)$ を満たす軌道の検索を完了します。 4. シンボリック列挙子は、限られた時間内に $\mathcal{D}_{H,D}$ 内のすべての候補を列挙します。 5. 最終的なバリデータは、制限された LTL/STL セマンティクスに対して信頼性があります。$C(\psi^\star)$ を満たす軌道 $\tau^\star$ がある場合、候補予算 $B \ge |\mathcal{D}_{H,D}|$ が であるとき、VERA-UAV は最終的に仕様を満たす軌道 $\tau$ を返します。 **証明スケッチ。** 仮定 4 によると、シンボリック列挙フォールバックは $\psi^\star$ に列挙されます。仮定 2 によれば、$C(\psi^\star)$ はセマンティックのままです。仮定 3 によると、基礎となるプランナーは $C(\psi^\star)$ を満たす軌道を見つけます。仮定 5 によれば、最終的なバリデーターはこの軌跡を受け入れます。アルゴリズムは、アルゴリズムの 23 ~ 24 行目に従ってこの軌跡を返します。したがって、VERA-UAV は、この限られた DSL とモデルの前提条件の下では比較的完成度が高くなります。認証が完了しました。 ### 5.6 完全性の境界 この定理は、VERA-UAV が現実世界のあらゆる自然言語や連続的なダイナミクスに対して完全に完全であることを意味するものではありません。 **ターゲット タスクが限定された TaskIR DSL で表現でき、基礎となる検索スペースと検証セマンティクスがタスクをカバーしている限り、VERA-UAV は LLM に依存せずに必然的に正しい答えを生成し、シンボリック フォールバックを通じて実行可能な解決策を見つけることもできます。 ** これは、Lang2LTL、LTLCodeGen、および T3 Planner に対するこの記事の重要な理論的位置付けでもあります。LLM は効率的な提案ジェネレーターであり、完全性のソースではありません。 --- ## 6. データソースとデータセットの構築 ### 6.1 マスターデータソース AAAI の主な実験では、都市 UAV グリッド/世界データの手続き型生成を使用し、AirSim や実際の飛行データには依存しません。これを行う理由は 3 つあります。 1. 制御可能: 到達可能なタスク、到達不可能なタスク、あいまいなタスク、競合するタスク、厳しい時間枠などのタスクを体系的に生成できます。 2. 再現可能: マップ、タスク、ランダム シードは完全にオープンソースにすることができます。 3. AAAI の長さに適応する: 過酷なシミュレーション エンジニアリングではなく、AI メソッドの評価を提供することに焦点を当てます。 ### 6.2 マップの生成 各マップには次のものが含まれます。- グリッド サイズ: `50x50x3` から `100x100x5` まで。 - 意味オブジェクト: 建物、病院、学校、物流ステーション、着陸地点、検査面、飛行禁止区域。 - 空域構造: レベル、飛行通路、一時閉鎖エリア。 - 動的要素: オプションで移動障害物や一時的な飛行禁止ゾーンを追加します。 - OSM スタイルの命名: `hospital_zone_2`、`building_7_east_face` などは、セマンティックな命名参照としてのみ使用され、メインの実験では依存されません。 ### 6.3 サンプルフィールド 各サンプルには次のものが含まれています。 |フィールド |説明 | |------|------| | `命令ID` |サンプル番号 | | `マップID` |マップ番号 | | `自然言語の命令` |自然言語 UAV タスク | | `entity_annotations` |マップ エンティティはディレクティブ エンティティと位置合わせされます。 | `gold_task_ir` |手動またはルール生成のゴールドスタンダード TaskIR | | `ゴールド_ltl` |ゴールドスタンダードLTL | | `gold_stl` |ゴールドスタンダード STL | | `satisfiability_label` | `SAT`、`UNSAT`、`NEED_CLARIFICATION` | | `基準軌道` | SAT の場合、実現可能な軌道を指定してください。 | `失敗の種類` |失敗した場合は、失敗のタイプをマークします。 | `oracle_コスト` |最短経路または最小コスト軌道コスト | ### 6.4 データスケール v2 推奨の AAAI メイン実験スケール: |分割 |数量 |目的 | |------|------|------| |電車・プロンプトプール | 800 |少数のショットの例、テンプレートのデバッグ | |開発 | 250 |プロンプト、修復戦略、しきい値の選択 | |テスト | 400 |最終報告書 | |ストレステスト | 150 |長い組み合わせ、曖昧、満足できない、タイトな時間枠 | テスト セットはプロンプト選択に参加できません。すべてのラボ レポートには、固定のランダム シードとタスク リストが含まれています。 ### 6.5 データ生成プロトコルと漏洩防止合成ベンチマークが AAAI のレビュー担当者に対抗できるようにするには、データ生成を「その場限りの実験スクリプト」ではなく「再現可能なベンチマーク」として初日から管理する必要があります。 1. **最初にジェネレーターをフリーズしてからテストを生成します**: マップ ジェネレーター、タスク テンプレート、言語パラフレーズ ルール、および失敗挿入ルールが最初に開発上でデバッグされ、コミット ハッシュをフリーズしてからテスト/ストレス テストを生成します。 2. **マップ レベルによる分割**: テスト マップは、同じ `map_id`、エンティティ座標、または障害物のレイアウトを train/dev と共有することはできません。共有できるのは抽象タスク タイプのみです。 3. **エンティティ命名レベルによる分割**: テストのタスクの少なくとも 30% は、「clinic_zone」、「sky_corridor_E2」、「temporary_pad_17」など、トレーニング セットには登場していないエンティティ命名パターンを使用します。 4. **テンプレートの組み合わせレベルによる分割**: モデルが 1 つのテンプレート マッピングのみを記憶するのを防ぐために、「順序付けられた検査 + 時間枠 + 緊急フォールバック」など、テスト内で未確認の組み合わせをいくつか保持します。 5. **ランダム シードとマニフェストを修正**: 各分割は「manifest.jsonl」、記録ジェネレーターのバージョン、シード、マップ ハッシュ、タスク テンプレート ID、言い換え ID、および満足度ラベルを出力します。 6. **テスト プロンプト汚染の禁止**: 数ショットのサンプルはトレイン/プロンプト プールからのみ取得できます。 dev は、しきい値とプロンプト戦略の選択にのみ使用されます。テストとストレス テストは 1 回だけ実行され、結果はロックされます。 ### 6.6 障害分類法 VERA-UAV が修正した内容の説明を容易にするために、各障害サンプルは最初の障害段階と最終障害段階を記録する必要があります。|障害の種類 |定義 |メインの属性モジュール | |--------------|------|--------------| | `構文エラー` | LTL/STL を解析できないか、型が一致しません。 LLM/コンパイラ | | `entity_error` |存在しない、あいまいな、または不一致のマップ エンティティへの参照 |接地 | | `semantic_miss` |飛行禁止区域や時間枠などの重要なユーザー制約が欠落している。 TaskIR の生成 | | `unsat_missed` | gold は UNSAT ですが、システムは実行可能なプランを返します。検証者 / 決定ポリシー | | `false_unsat` | gold は SAT ですが、システム エラーでは UNSAT | が出力されます。プランナー / 検索予算 | | `ltl_violation` |離散タイミング シーケンス、到着と回避が満たされていません |プランナー / LTL コンパイラー | | `stl_violation` |高さ、距離、速度、時間ウィンドウの堅牢性 非正 |弾道・STLモニター | | `修復回帰` |制約を修復し、最初に満たされていた制約を破棄します。修復ループ | | `タイムアウト` |事前に設定された推論または計画予算を超えました |システム予算 | 最終論文では平均スコアだけでなく、失敗分類の積み上げヒストグラムも報告されます。このようにして、全体的な改善が十分に大きくない場合でも、この方法が重要な安全性の障害タイプに対して明らかな効果があることを証明できます。 --- ## 7. 実験用プラットフォームと実装構成 ### 7.1 ハードウェア 現在、4 つの RTX 4090 とそれぞれ 24GB のビデオ メモリで設計されています。この研究はクローズド ソース API に依存しておらず、主な実験はすべてローカルのオープン ソース モデルを使用しています。 ### 7.2 モデル 主な実験モデル: - Qwen3-8B: 軽量ローカル モデル ベースライン [35]。 ●Qwen3-14B:マスターモデル[35]。 - DeepSeek-R1-Distill-Qwen-14B: 推論強化モデル [36]。 オプションのキャップ付きモデル:- 32B 定量的モデル。付録または補足的な結果として使用されます。 AAAI の主な結論の要件としては必要ありません。 ローカル推論では、vLLM/PagesAttendant または HuggingFace Transformers を使用します。 vLLM の PagedAttendant 設計は、複数のプロンプトと複数の修復ラウンドでのスループット実験に適しています [37]。 ### 7.3 ソフトウェアモジュール |モジュール |候補ツール |機能 | |------|----------|------| | LLM 推論 | vLLM/トランスフォーマー |ローカルモデル推論 | | LTL 検証 |スポット | LTL 解析、オートマトン、充足可能性分析 | | STLモニタリング | RTAMT または自己実装モニター | STL の堅牢性 | |確率的チェック |プリズム |オプションの不確かな環境検証 | |企画 | A* / RRT* / MPC-lite |軌道生成 | |ロギング | JSONL + CSV |ビルド、検証、修復のすべてのラウンドをログに記録する | ### 7.4 運用記録 各タスク インスタンスは以下を記録する必要があります。 - オリジナルの指示。 - ラウンドごとのタスクIR、LTL、STL。 - バリデータ出力。 - プロンプトを修正。 - 最終的な軌道。 - 実行時間、トークンの数、およびグラフィックス メモリの構成。 - 同じタスク上のベースラインと VERA-UAV のペアの比較 ID。 これらの記録は、AAAI 再現性チェックリスト [38] の役割を果たします。 ### 7.5 事前登録パラメータの予算 実験後のパラメータ調整を避けるために、このタスク ドキュメントでは、正式なテストの最初のラウンドの前に次の予算を修正することを推奨します。|パラメータ |推奨値 |説明 | |------|--------|------| | `K_LLM` | 3 |タスクごとに最大 3 ラウンドの LLM 修復 | | `B` | 256 | VERA-UAV 候補タスク IR 予算の合計 | | `D` | 4 | TaskIR DSL の最大ネスト深さ | | `H` | 8 |個別のタスクの範囲/サブ目標の上限 | | `T_プラン` | 30代 |単一タスク計画のタイムアウト | | `T_llm` | 20代 |単一ラウンド LLM 推論タイムアウト | |デコード温度 | 0.2 |メイン実験のランダム性が低い。付録では温度感度のみを報告します。 |トップ | 0.9 |温度と同時固定 | |新しいトークンの最大数 | 1024 |異なるモデルの出力長の違いが実行時間に影響を与えないようにする | 正式な実験のためにこれらの値を変更する必要がある場合は、まずその理由を dev に記録し、その後、構成を再凍結する必要があります。テスト結果からパラメータを逆に決定することはできません。 --- ## 8. 比較実験計画 ### 8.1 ベースラインリスト|方法 |説明 |目的 | |------|------|------| |直接 LLM プランニング | LLM 直接出力ウェイポイント / アクション シーケンス |プレーンテキスト計画が安全でないかどうかを確認する | | ReAct流プランニング |推論とアクションのループ、正式な検証なし |一般的な LLM エージェント計画との比較 [14] | | SayCan スタイルのアフォーダンス フィルタリング | LLM スコア + 実行可能なスキル フィルター |アフォーダンス グラウンディングの比較 [15] | |プロンプトのみの NL から LTL/STL へ | LLM は、型指定された IR や検証修正を行わずに、LTL/STL を直接出力します。プロンプトを確認してください プロジェクトの上限 | | NL2LTL スタイルのテンプレートのベースライン |テンプレート マッチングに基づいて LTL を生成 |従来のテンプレート手法との比較[2] | | LTLCodeGen スタイルのベースライン | LLM は論理関数コードを生成し、それを LTL | にコンパイルします。構文の正確性を確認するルート [3] | | T3 スタイルの自己修正 | LLM + STL ベリファイア、複数回の自己修正 |最近の直接競合ルートとの比較 [6] | | VERA-UAV 修理なし | TaskIR を使用して検証しますが、失敗後に修復はしません |個別の検証と修復の貢献 | | VERA-UAV LLM のみの修理 |型付き IR + LLM 修復、未署名列挙型フォールバック |フォールバックの完全性への貢献を検証する | | VERA-UAV フル |完全な型付き IR + 検証 + 反例修復 + シンボリック フォールバック |メインメソッド | ### 8.2 主な実験 メインの実験では、次の 5 つの質問に答えます。1. VERA-UAV はベースラインよりも実行可能な計画を生成するのが簡単ですか? 2. VERA-UAV はセキュリティ侵害率を削減しますか? 3. VERA-UAV の STL 堅牢性は大幅に高くなっていますか? 4. VERA-UAV の修復ラウンド数と追加の推論オーバーヘッドは許容可能ですか? 5. シンボリック列挙フォールバックは本当に「失敗したタスクの回復率」と相対的な完全性を向上させますか? 主な結果テーブルの提案:|方法 |構文は有効です ↑ |セマンティック F1 ↑ | ESS ↑ | FSR ↓ |平均堅牢性 ↑ |最適性ギャップ ↓ |修理成功 ↑ |ランタイム↓ | |----------|----------------|---------------|------|----------|--------|------|------|-----------| |ダイレクトLLM |未定 |未定 |未定 |未定 |未定 |未定 |該当なし |未定 | | ReActスタイル |未定 |未定 |未定 |未定 |未定 |未定 |該当なし |未定 | | SayCanスタイル |未定 |未定 |未定 |未定 |未定 |未定 |該当なし |未定 | |プロンプトのみ |未定 |未定 |未定 |未定 |未定 |未定 |該当なし |未定 | | NL2LTLスタイル |未定 |未定 |未定 |未定 |未定 |未定 |該当なし |未定 | | LTLCodeGen スタイル |未定 |未定 |未定 |未定 |未定 |未定 |該当なし |未定 | | T3スタイル |未定 |未定 |未定 |未定 |未定 |未定 |未定 |未定 | | VERA-UAV 修理不可 |未定 |未定 |未定 |未定 |未定 |未定 | 0 |未定 | | VERA-UAV LLM のみの修理 |未定 |未定 |未定 |未定 |未定 |未定 |未定 |未定 | | VERA-UAV フル |未定 |未定 |未定 |未定 |未定 |未定 |未定 |未定 |表中の「TBD」は実験のために記入するデータであり、課題文中で偽造してはならない。 ### 8.3 実験結果の評価プロトコル v2では、「どちらの指標が良いか報告する」という事後のリスクを回避するために、主要な指標と統計的判断を明確にしています。 **主要指標 1: 実行可能安全成功 (ESS)** タスクは、次の条件を同時に満たす場合にのみ ESS=1 としてカウントされます。 - 生成された TaskIR には型エラーはありません。 - LTL/STL コンパイル可能。 - プランナーが軌道を見つけます。 - 最終的な軌道は LTL チェックに合格します。 - STL の堅牢性は良好です。 - 衝突、飛行禁止区域への進入、高度違反、またはタイムウィンドウの失敗がないこと。 **主要指標 2: 誤った安全率 (FSR)** FSR は、システムが安全に実行可能であると誤判断した、安全でないタスクまたは満足できないタスクの割合を測定します。

\mathrm{FSR} = \frac{#{\mathrm{安全ではない\ しかし\ 実行可能ファイルとして\ 返されました}}}{#{\mathrm{すべて\ 返された\ 実行可能ファイル}}}。

You can't use 'macro parameter character #' in math mode AAAI の論文では、FSR は安全保障の方向において最も重要なマイナスの指標と見なされるべきです。 VERA-UAV の主なセールスポイントは、すべてのタスクに対して「出力」を行うことではなく、誤ったセキュリティを回避することです。 **統計テスト** - ESS、FSR、UNSAT 検出などのバイナリ指標の場合は、対応のあるマクネマー テストを使用します。 - 堅牢性、最適性ギャップ、実行時間などの継続的な指標の場合は、ペアのブートストラップ 95% CI および Wilcoxon 符号付きランク テストを使用します。 - 複数のベースライン比較では、ホルム・ボンフェローニ補正を使用します。 - 結論は、$p<0.05$ かつ効果量が事前登録閾値に達した場合にのみ本文に書き込まれます。 **成功基準** AAAI の主な結論を確立するための最低条件:1. VERA-UAV full の ESS は、LTLCodeGen スタイルおよび T3 スタイルのベースラインの ESS よりも大幅に高くなります。 2. VERA-UAV フルの FSR は、すべての LLM のみのベースラインよりも大幅に低くなります。 3. STL の堅牢性フィードバックを削除した後、継続的な安全制約に関連する障害が大幅に増加します。 4. シンボリック フォールバックにより、LLM 修復障害サンプルに測定可能な利益がもたらされます。 ### 8.4 一般化実験 一般化の次元: - 地図が表示されません。 - エンティティ名が表示されません。 - 自然言語の言い換え。 - より長いタイミングの組み合わせ。 - より厳しい時間枠。 - 満たされていないタスクの割合が増加します。 一般化実験では、エラー軌跡を出力するのではなく、VERA-UAV が満足できないタスクや曖昧なタスクを識別できるかどうかを報告することに重点を置いています。 ### 8.5 ケーススタディ 少なくとも 3 つの視覚化ケースを準備します。 1. **構文修復のケース**: LLM 出力が不正な STL であり、スポット/RTAMT がエラーを報告し、システムが修復されます。 2. **軌道安全性の場合**: LTL は満たされていますが、STL の堅牢性はマイナスであり、システムは迂回後にプラスに転じます。 3. **満足できないケース**: ユーザーの要件が矛盾しており、システムは「UNSAT」を出力します。 ### 8.6 AAAI 本文チャート計画 AAAI の本文スペースは非常に狭いため、グラフは核心的な議論を提供する必要があります。本文に含めるグラフは 5 種類のみとし、それ以外については付録を使用することが推奨されます。|ダイアグラム |ターゲット |配置 | |------|------|----------| |図 1: VERA-UAV パイプライン |型付き IR、検証、修復、フォールバックの閉ループの概要 |方法 | |表 1: コア文献の位置付けマトリックス |この記事が単純な NL から LTL への応用ではないことを証明します。関連作品 | |表 2: 主な実験結果 | ESS、FSR、堅牢性、ランタイムの一対比較 |実験 | |図 2: 障害分類の積み上げグラフ |この方法により主にどのタイプの障害が軽減されるかを示します。実験 | |図 3: ケーススタディの軌跡 |反例フィードバックが負のロバスト性を正にどのように修正できるかを示します。実験 / 付録 | 本文内のプロンプト セクション、完全な DSL 文法、またはすべてのマップのスクリーンショットを拡大することはお勧めできません。これらの内容は、貢献に関する議論を邪魔しないように、コード/データの付録に配置する必要があります。 --- ## 9. アブレーション実験計画|アブレーション |バリアント |目的 | |------|------|------| |型指定された IR を削除する | LTL/STL の直接生成 |構造化中間表現の信頼性が向上するかどうかを検証する | |反例のフィードバックを削除 |一般的な再試行 |反例が通常の再試行より効果的かどうかを検証する | | STL 堅牢性フィードバックを削除 | LTL のみの検証 |継続的な安全制約を検証することの重要性 | |ワンショット修理 |修理は最大 1 回 |修理ラウンドの利点を評価する | |反復修復 |修理は3回まで |複数回の修理の上限を評価する | |さまざまなモデルのサイズ | Qwen3-8B / Qwen3-14B / DeepSeek-R1-Distill-Qwen-14B |モデルの機能と検証フレームワークの関係を評価する | | UNSAT 検出を削除する |トレース生成を強制する |応答拒否機能のセキュリティへの貢献を検証する | |シンボルのフォールバックを削除 | LLM のみの修理 |障害回復に対する相対的な完全性コンポーネントの貢献を検証する | |プランナーの最終確認を削除 |式だけを検証し、軌跡は検証しない |閉ループの実行がオプションではないことを証明する | アブレーション実験の核心は、「コンポーネントが有効であることを証明する」ことではなく、AAAI の審査員が最も懸念している安全性とパフォーマンスの指標にどのコンポーネントが最も貢献しているかを見つけることです。 --- ## 10. 評価指標 ### 10.1 仕様生成インジケーター|指標 |定義 | |------|------| |構文の有効性 | LTL/STL はパーサーに受け入れられますか? |実体の接地精度 |コマンド エンティティがマップ エンティティに正しくマッピングされているかどうか | |セマンティック F1 | TaskIR フィールドとゴールド TaskIR | の精度 / リコール / F1 を生成します。 |セマンティックマッチ |生成された仕様がゴールド TaskIR / ゴールド フォーミュラと同等またはほぼ同等かどうか | | UNSAT 検出精度 |満たせないタスクが正しく特定されているかどうか | |明確化の精度 |ファジータスクが「NEED_CLARIFICATION」をトリガーするかどうか | |不正実行可能率 |不適切に実行された、満足できないタスクまたはあいまいなタスクの割合 | ### 10.2 計画実行指標 |指標 |定義 | |------|------| |エスエス |セマンティクス、実現可能な軌道、LTL、STL、および安全制約を同時に満たすタスクの割合 | | FSR |誤って実行しても安全であるとマークされた安全でないタスクの割合 | |平均 STL ロバスト性 |STL 仕様に対する最終軌道の平均ロバスト性 | |最悪の場合の STL の堅牢性 |軌道ごとの最小ロバスト性の分布 | |最小安全マージン |軌道上の最小障害物距離 | |最適性のギャップ | $(J(\tau)-J^\star)/J^\star$ | |飛行距離 / 飛行時間 |軌道コストと飛行時間 | ### 10.3 修理効率指標|指標 |定義 | |------|------| |修理成功率 |検証失敗後の修復成功率 | |フェイルツーパス変換 |初期に失敗したサンプルのうち、修復後に合格するサンプルの割合 | |平均修理回数 |平均修理回数 | |フォールバック貢献 | LLM 修復は失敗したが、象徴的なフォールバックは成功した割合 | |実行時のオーバーヘッド |修復機構による余分な時間 | |トークンのオーバーヘッド |プロンプトと診断によって引き起こされるトークンの増加を修正 | ### 10.4 インジケーター計算の詳細 主要な実験では、論文作成段階での手動の調整を避けるために、次のインジケーターをコードに直接実装する必要があります。 **セマンティック F1** TaskIR をフィールドレベルの制約 $\mathcal{C}$ のセット (`reach(A)`、`avoid(zone_B)`、`time_window(A,30)` など) にフラット化します。予測セットを $\hat{\mathcal{C}}$ 、ゴールドスタンダード セットを $\mathcal{C}^\star$ とします。

P = \frac{|\hat{\mathcal{C}}\cap \mathcal{C}^\star|}{|\hat{\mathcal{C}}|}, \quad R = \frac{|\hat{\mathcal{C}}\cap \mathcal{C}^\star|}{|\mathcal{C}^\star|}, \quad F1 = \frac{2PR}{P+R}。

\mathrm{SVR} = \frac{#{\tau: 衝突 \lor nofly \lor 高度_violation \lor \rho(\tau,\varphi_{\mathrm{STL}})\le 0}} {#{\mathrm{返された\ 軌道}}}。

\mathrm{ギャップ}(\tau)=\frac{J(\tau)-J^\star}{\max(J^\star,\epsilon)}。

\mathrm{FailToPass} = \frac{#{\mathrm{最初\ 失敗、\ 最終\ 合格}}} {#{\mathrm{初期\ 失敗}}}、 \クアッド \mathrm{フォールバックコントリビューション} = \frac{#{\mathrm{LLM\修復\失敗、\シンボリック\フォールバック\パス}}} {#{\mathrm{最終\パス}}}。

You can't use 'macro parameter character #' in math mode これらの数式は、実験スクリプトで機械可読な CSV フィールドとして出力し、紙のテーブルでのみ書式設定する必要があります。 --- ## 11. 予想される実験結果 このセクションは事前登録の予想であり、実験結果ではありません。 ### 11.1 主な期待 VERA-UAV フルは、ESS のすべてのベースラインよりも高く、FSR/安全違反率は低いと予想されます。その理由は、ベースラインは通常、仕様に対する言語の局所的な正確性のみを最適化するだけですが、VERA-UAV は「仕様が安全な軌道を生成できるかどうか」を閉ループに組み込むためです。 ### 11.2 反例フィードバックの期待 反例のフィードバックにより、実行不可能な計画の割合が大幅に削減されることが期待されます。一般的な再試行と比較して、構造化された反例は LLM にどの節、どの瞬間、どのエンティティが失敗の原因となったかを伝えることができるため、方向性のない再試行が減少します。 ### 11.3 型別の IR 期待 型付き IR は、意味の一貫性と解釈可能性を向上させることが期待されています。 LTL/STL を直接生成すると、括弧、演算子、エンティティ参照、制約が欠落する傾向があります。 TaskIR は、これらのエラーをフィールドの欠落または型エラーとして事前に公開します。 ### 11.4 STL の堅牢性が期待されるSTL の堅牢性フィードバックは、継続的な安全性の制約にとって最も重要であると予想されます。 LTL レイヤーは、「最終到着」や「飛行禁止区域の回避」などの離散的な特性を証明できますが、飛行高度、最小距離、時間枠マージンを完全に表現することはできません。 STL の堅牢性は、定量化された安全境界を提供することができ、UAV を通常の地上ナビゲーションタスクと区別する重要なポイントとなります。 ### 11.5 予想されるモデルのサイズ より強力なローカル モデルは初期の TaskIR 品質を向上させることが期待されますが、検証修復フレームワークは小規模なモデルにも役立ちます。つまり、この記事では「ある大きなモデルが強い」という貢献を書くのではなく、「検証エラー修正機構がさまざまなオープンソースモデルの信頼性を向上させる」という貢献を書くべきなのです。 --- ## 12. 自己監査および v2 修正中に発見された問題 ### 12.1 v1 の主な問題 1. **文献の網羅性が不十分**: v1 には 12 件の参考文献のみがリストされており、AAAI の位置づけを裏付けるには十分ではありません。 2. **目新しさの境界が十分に明確ではありません**: v1 は「UAV バージョン NL から LTL」として容易に理解され、Lang2LTL および LTLCodeGen との違いは十分強力ではありません。 3. **実験指標は十分に評価されていません**: v1 では一般的な指標のみがリストされており、ESS、FSR、統計テスト、成功基準は定義されていません。 4. **完全性に関する記述が弱すぎます**: v1 では、アルゴリズムが純粋なヒューリスティックではない理由が説明されていません。 5. **合成データのリスクが十分に軽減されていない**: v1 では、合成データが依然として AAAI 方法論上の結論を支持している理由が説明されていません。 ### 12.2 v2 の修復戦略 1. 関連性の高い文書を 30 以上に拡張し、文献マトリックスを使用して各記事とこの記事の関係を明確にします。 2. 「変換」からの寄与を「実行閉ループ + STL 堅牢性 + 反例修復 + 比較的完全なフォールバック」に絞り込みます。 3. ESS、FSR、最適性ギャップ、不合格変換などの再現可能な指標を定義します。 4. 終端、安全性、信頼性、および相対的な完全性の定理を示し、完全性は LLM ではなく有限 DSL と記号列挙によってもたらされることを明確にします。 5. AirSim/実際のロジスティクスを T-ITS 拡張に組み込むと、AAAI の主要記事は合成制御ベンチマークの方法論的な位置付けに準拠します。 ### 12.3 2026-05-19 2 回目の自己点検と強化このラウンドでレビューを続けた後、論文 E にはレビュー担当者が質問しやすい 4 つの問題がまだ残っていると考えられており、対応する制約がタスクブックに追加されました。 1. **データの信頼性**: 「プログラムによって生成されたデータ」というだけでは十分ではありません。発電機のフリーズ、マップレベルのセグメンテーション、エンティティ命名レベルのセグメンテーション、および即時汚染防止のテストを明確にする必要があります。 2. **障害説明力**: ESS/FSR を報告するだけでは十分ではありません。この方法が平均スコアを向上させるだけでなく、安全関連の故障が減少していることを証明するには、故障分類を記録する必要があります。 3. **再現可能なパラメータ**: Qwen3 / DeepSeek を使用するだけでは十分ではありません。修復ラウンドの数、候補の予算、DSL の深さ、計画タイムアウト、およびデコード パラメーターを修正する必要があります。 4. **論文プレゼンテーション戦略**: AAAI はスペースが限られているため、本文の図を事前に決定する必要があります。そうしないと、主線が散らばりやすくなります。 これら 4 つの点は VERA-UAV の核となる貢献を変えるものではありませんが、ミッション ステートメントを「アイデア ルート」から「実験と論文を直接組織できる」状態に進めることができます。 ### 12.4 2026-05-23 仕上げ: AAAI メインラインのまとめ 論文 E は、事前に完全な ITS システム論文を作成するのではなく、**AAAI / IJCAI メソッド論文**として優先されるべきです。中心的な問題は、LLM によって生成された UAV ミッション計画を、型付き IR、時相論理検証、反例修復、およびシンボリック フォールバックを通じて、実行可能、検証可能、および解釈可能な軌道計画にどのように変換できるかということです。 この論文の最初のバージョンには、次の 3 つの貢献のみが残っています。 1. **型付き TaskIR**: 自然言語 UAV 命令を、エンティティ、アクション、タイミング制約、セキュリティ制約、およびリソース制約を検査できる中間表現に変換します。 2. **LTL/STL + ベリファイア + 軌道クロージャ**: 式の構文を検証するだけでなく、仕様が安全制約を満たす軌道を生成できるかどうかも検証します。 3. **反例/有限 DSL フォールバックによる堅牢性修復**: 反例、unsat コア、および STL 堅牢性フィードバックを使用して修復します。 LLM を修復できない場合は、有限 DSL 列挙を使用して相対的な完全性を実現します。 本文中で次のことを事前に約束しないでください。- 完全なマルチ UAV トラフィック管理は行いません。 - 実際の物流システムの導入はありません。 - 主な実験として AirSim の高忠実度シミュレーションに依存しないでください。 - ITS 政策や低高度経済システムの啓示を AAAI の主な貢献として書かないでください。 最小限の実験行列は次のように凍結することをお勧めします。 |寸法 |初版の設定 | |------|-----------| |タスクファミリー |パトロール、配達、検査、回避、時間的命令、UNSAT / 曖昧 | |地図 |手続き的に生成された都市グリッド / 障害物 / 飛行禁止区域 / 充電ポイント | |ベースライン |直接 LLM プランニング、ReAct / プロンプトのみ、NL2LTL スタイル、LTLCodeGen スタイル、VERA-UAV 修復なし、VERA-UAV フル | |主要指標 | ESS、FSR、安全違反率、修復成功、失敗変換、実行時間 | |アブレーション |型付き IR なし、反例なし、STL 堅牢性なし、ワンショット修復と反復修復なし、シンボリック フォールバックなし。 |一般化 |目に見えない地図、目に見えないエンティティの命名、より長い期間、より厳しい制約、UNSAT 検出 | T-ITS 拡張機能は、後続のバージョンに配置できます。ペーパー B のフリート スケジュール、ペーパー F のストレス シナリオ、および低高度交通システム インジケーターを統合します。しかし、AAAI バージョンでは質問を明確にしておかなければなりません。そうしないと、AI レビュー担当者とトラフィック レビュー担当者の両方によって境界線が押し広げられることになります。 --- ## 13. リスクと代替案|リスク |影響 |代替案 | |------|------|----------| |新規性は、NL から LTL へのアプリケーションに対してのみ考慮されます。 AAAI は拒絶反応のリスクが高い | STL の堅牢性、反例の修復、および実行可能な軌道の閉鎖を重視 | | LTLCodeGen ベースラインが強すぎます |主な結果には十分な利点がありません。 UAV の連続制約と不満足な検出を差別化指標として使用する | |ローカル モデルの機能が不十分です。初期翻訳品質が低い | Qwen3-14B/DeepSeek-R1-Distill-Qwen-14B を使用して修復効果を報告する | |データセットは合成的すぎると考えられます |アプリケーションの信頼性が不十分です | OSM スタイルの命名、実際の街区レイアウト統計を追加しますが、実際のフライトには依存しません | |修復ラウンド数によりランタイムが長すぎます。リアルタイムのパフォーマンスが問われます |ワンショットおよび最大 3 ラウンドの修復をレポートし、タイムアウトとフォールバックを設定 | | STL モニターは実装が複雑です。進行状況に影響する |最初に離散時間 STL サブセットを実装してから、RTAMT に接続します。 | AAAI にはスペースがありません |話が分岐します |本文にはメソッドとコア実験のみが含まれており、ITS は付録を拡張する予定です。 | AAAI は LLM で生成されたテキスト ポリシーに敏感です。論文執筆におけるコンプライアンスのリスク |最終的に提出されたテキストは、著者によって手動で書き直され、レビューされる必要があります。 LLM 出力は実験対象または内部執筆補助としてのみ使用され、未レビューの生成テキストは論文のテキストとして直接使用されません [38] | |相対的な完全性は強すぎる仮定であると考えられます。理論的貢献が弱まる |本文では、それは相対的な完全性であると明確に書かれており、制限付き DSL、境界付きホライズン、および完全なプランナーは、現実世界における絶対的な保証ではなく、定理の仮定として使用されます。 |ストレステストが難しすぎて主な結果が低下 |平均インジケーターは見栄えがよくありません |メインテストとストレステストは別々に報告されます。ストレス テストは堅牢な境界を分析するために使用され、同じ平均値の主要な結論と混合されません。 --- ## 14. 参考文献[1] Jason Xinyu Liu、Ziyi Yang、Ifrah Idrees、Sam Liang、Benjamin Schornstein、Stefanie Tellex、Ankit Shah。 「目に見えない環境における一時的なタスクのための複雑な自然言語コマンドの基礎付け」 *第 7 回ロボット学習会議の議事録*、PMLR 229:1084-1110、2023。URL: <https://proceedings.mlr.press/v229/liu23d.html> [2] フランチェスコ・フギッティと如来チャクラボルティ。 「NL2LTL -- 自然言語 (NL) 命令を線形時相論理 (LTL) 数式に変換するための Python パッケージ」 *人工知能に関する AAAI 会議議事録*、37(13):16428-16430、2023。DOI: 10.1609/aaai.v37i13.27068。 URL: <https://ojs.aaai.org/index.php/AAAI/article/view/27068>[3] ベフラド・ラビエイ、マヘシュ・クマール・A・R、ジルイ・ダイ、スーリヤ・L・S・R・ピラ、キユエ・ドン、ニコライ・アタナソフ。 「LTLCodeGen: ロボット タスク プランニングのための構文的に正しい時相ロジックのコード生成」 arXiv:2503.07902、2025;プロジェクト ページは IROS 2025 を報告します。URL: <https://arxiv.org/abs/2503.07902>; <https://existentialrobotics.org/LTLCodeGen/> [4] ジュン・ワン、デヴィッド・スミス・サンダーシン、ジョティルモイ・V・デシュムク、ヤニス・カンタロス。 「ConformalNL2LTL: 自然言語命令を、等角的な正確性が保証された時間論理式に変換する。」 arXiv:2504.21022、2025。URL: <https://arxiv.org/abs/2504.21022> [5] Licheng Luo、Kaier Liang、Yu Xia、Mingyu Cai。 「NL2SpaTiaL: 操作タスクのための自然言語からの幾何学的時空間論理仕様の生成」 arXiv:2512.13670、2025; 2026 年に改訂。URL: <https://arxiv.org/abs/2512.13670>[6] 賈李と趙国祥。 「T3 Planner: 時間論理を使用したロボット動作計画のための自己修正 LLM フレームワーク」 arXiv:2510.16767、2025。URL: <https://arxiv.org/abs/2510.16767> [7] Simon Sinong Zhan、Yao Liu、Philip Wang、Zineng Wang、Zhian Ruan、Xiangyu Shi、Xinyu Cao、Frank Yang、Kanrui Wang、Huajie Shao、Manling Li、Qi Zhu。 「SENTINEL: LLM ベースの身体型薬剤の安全性評価のためのマルチレベルの正式なフレームワーク」 arXiv:2510.12985、2025。URL: <https://arxiv.org/abs/2510.12985> [8] アナンド・ゴーカレ、ヴァイバブ・スリヴァスタヴァ、フランチェスコ・ブロ。 「LogicGuard: 時相論理ベースの批評家を通じて、組み込まれた LLM エージェントを改善する。」 arXiv:2507.03293、2025。URL: <https://arxiv.org/abs/2507.03293> [9] Haoyu Wang、Christopher M. Poskitt、Jun Sun、Jiali Wei。 「Pro2Guard: 確率的モデル チェックによる LLM エージェントの安全性のプロアクティブなランタイム強制。」 arXiv:2508.00500、2025。URL: <https://arxiv.org/abs/2508.00500>[10] トム・シルバー、ソーハム・ダン、カビサ・スリニバス、ジョシュア・B・テネンバウム、レスリー・ケルブリング、マイケル・カッツ。 「事前トレーニングされた大規模言語モデルを使用した PDDL ドメインでの一般化された計画」。 *人工知能に関する AAAI 会議の議事録*、38(18):20256-20264、2024 年。DOI: 10.1609/aaai.v38i18.30006。 URL: <https://ojs.aaai.org/index.php/AAAI/article/view/30006> [11] Karthik Valmeekam、Matthew Marquez、Sarath Sreedharan、Subbarao Kambhampati。 「大規模言語モデルの計画能力について: 重要な調査」。 *神経情報処理システムの進歩*、2023 年。URL: <https://arxiv.org/abs/2305.15771> [12] Bo Liu、Yuqian Jiang、Xiaohan Zhang、Qiang Liu、Shiqi Zhang、Joydeep Biswas、Peter Stone。 「LLM+P: 最適な計画能力を備えた大規模言語モデルの強化」。 arXiv:2304.11477、2023。URL: <https://arxiv.org/abs/2304.11477>[13] Karthik Valmeekam、Matthew Marquez、Alberto Olmo、Sarath Sreedharan、Subbarao Kambhampati。 「PlanBench: 変更に関する計画と推論に関する大規模な言語モデルを評価するための拡張可能なベンチマーク」 *神経情報処理システム、データセット、ベンチマークの進歩*、2023 年。URL: <https://openreview.net/forum?id=YXogl4uQUO> [14] ヤオ・シュンユー、ジェフリー・チャオ、ディアン・ユー、ナン・ドゥ、イザク・シャフラン、カルティク・ナラシンハン、袁操。 「ReAct: 言語モデルにおける推論と行動の相乗効果」 *学習表現に関する国際会議 (ICLR)*、2023 年。URL: <https://openreview.net/forum?id=WE_vluYUL-X> [15] マイケル・アンら。 「私が言うことではなく、できる限りのことをする: ロボットによるアフォーダンスにおける言語のグラウンディング」 *ロボット学習に関するカンファレンス (CoRL)*、2022 年。URL: <https://arxiv.org/abs/2204.01691>[16] ジャッキー・リャン、ウェンロン・ファン、フェイ・シア、ペン・シュー、カロル・ハウスマン、ブライアン・イクター、ピート・フローレンス、アンディ・ゼン。 「ポリシーとしてのコード: 身体的制御のための言語モデル プログラム」 *IEEE ロボティクスとオートメーションに関する国際会議 (ICRA)*、2023 年。URL: <https://arxiv.org/abs/2209.07753> [17] イシカ・シン、ヴァルツ・ブルーキス、アルサラン・ムサビアン、アンキット・ゴヤル、ダンフェイ・スー、ジョナサン・トレンブレイ、ディーター・フォックス、ジェシー・トマソン、アニメシュ・ガーグ。 「ProgPrompt: 大規模言語モデルを使用した状況に応じたロボット タスク プランの生成」 *IEEE ロボティクスとオートメーションに関する国際会議 (ICRA)*、2023 年。 *自律ロボット* の拡張バージョン、2023 年。URL: <https://arxiv.org/abs/2209.11302> [18] ハダス・クレス・ガジット、ゲオルギオス・E・ファイネコス、ジョージ・J・パパス。 「時間論理ベースのリアクティブミッションとモーションプランニング」 *IEEE Transactions on Robotics*、25(6):1370-1381、2009。DOI: 10.1109/TRO.2009.2030225。[19] ハダス・クレス・ガジット、モルテザ・ラヒジャニアン、ヴァスマティ・ラマン。 「ロボットのための合成: ロボットの動作の保証とフィードバック」 *制御、ロボット工学、および自律システムの年次レビュー*、1:211-236、2018 年。DOI: 10.1146/annurev-control-060117-105838。 [20] オデッド・マーラーとデヤン・ニコヴィッチ。 「連続信号の時間特性のモニタリング」 *フォーマット/FTRTFT*、2004 年。DOI: 10.1007/978-3-540-30206-3_12。 [21] ゲオルギオス・E・ファイネコスとジョージ・J・パパス。 「連続時間信号の時相論理仕様の堅牢性」。 *理論的コンピュータ サイエンス*、410(42):4262-4291、2009 年。DOI: 10.1016/j.tcs.2009.06.021。 [22] アレクサンドル・ドンゼとオデッド・マーラー。 「実数値信号に対する時間論理の堅牢な満足」 *フォーマット*、2010 年。DOI: 10.1007/978-3-642-15297-9_12。[23] ヴァスマティ・ラマン、アレクサンドル・ドンゼ、ドーサ・サディ、リチャード・M・マレー、サンジット・A・セシア。 「信号時相論理仕様からのリアクティブ合成」 *ハイブリッド システム: 計算と制御 (HSCC)*、2015 年。DOI: 10.1145/2728606.2728628。 [24] シュロモナ・ゴーシュ、ドルサ・サディ、ピエルルイジ・ヌッツォ、ヴァスマティ・ラマン、アレクサンドル・ドンゼ、アルベルト・L・サンジョヴァンニ=ヴィンチェンテリ、サンジット・A・セシア。 「信号時相論理仕様による合成の診断と修復」 *ハイブリッド システム: 計算と制御 (HSCC)*、2016 年。DOI: 10.1145/2883817.2883847。 [25] アレクサンドル・デュレ=ルッツ、アレクサンドル・リューコヴィッツ、アモーリー・フォーシル、ティボー・ミショー、エティエンヌ・ルノー、ローラン・シュー。 「Spot 2.0 -- LTL およびオメガ オートマトン操作のためのフレームワーク」 *検証および分析のための自動化技術 (ATVA)*、2016 年。URL: <https://spot.lre.epita.fr/>[26] 山口智也、バルド・ホッジャ、デヤン・ニコビッチ。 「RTAMT -- CPS およびロボット工学へのアプリケーションを備えたランタイム堅牢性モニター」 *技術移転のためのソフトウェアツールに関する国際ジャーナル*、26(1):79-99、2024; arXiv:2501.18608、2025。DOI: 10.1007/S10009-023-00720-3。 URL: <https://arxiv.org/abs/2501.18608>;コード: <https://github.com/nickovic/rtamt> [27] マルタ・クウィアトコウスカ、ゲシン・ノーマン、デヴィッド・パーカー。 「PRISM 4.0: 確率的リアルタイム システムの検証」 *コンピューター支援検証 (CAV)*、2011 年。URL: <https://www.prismmodelchecker.org/bibitem.php?key=KNP11> [28] モハメド・アルシーク、ロデリック・ブルーム、リュディガー・エーラース、ベッティーナ・ケーニヒホーファー、スコット・ニークム、ウフク・トプク。 「シールドによる安全な強化学習」 *人工知能に関する AAAI 会議の議事録*、2018 年。URL: <https://ojs.aaai.org/index.php/AAAI/article/view/11797>[29] エドウィン・ハメル・デル・コート、フランチェスコ・ベラディネリ、アレクサンダー・W・グドール。 「安全な強化学習のための確率的シールド」 *人工知能に関する AAAI 会議の議事録*、39(15):16091-16099、2025。DOI: 10.1609/aaai.v39i15.33767。 URL: <https://ojs.aaai.org/index.php/AAAI/article/view/33767> [30] Shubo Liu、Hongsheng Zhang、Yuankai Qi、Peng Wang、Yanning Zhang、Qi Wu。 「AerialVLN: UAV のための視覚と言語のナビゲーション」。 *IEEE/CVF コンピューター ビジョンに関する国際会議 (ICCV)*、2023 年、15384 ~ 15394 ページ。 URL: <https://openaccess.thecvf.com/content/ICCV2023/html/Liu_AerialVLN_Vision-and-Language_Navigation_for_UAVs_ICCV_2023_paper.html>[31] 王祥宇、楊東林、王紫琴、クワン・ホーヒン、陳金宇、呉文俊、李紅生、廖岳、劉思。 「現実的な UAV ビジョン言語ナビゲーションに向けて: プラットフォーム、ベンチマーク、および方法論」 *学習表現に関する国際会議 (ICLR)*、2025 年。URL: <https://openreview.net/forum?id=rUvCIvI4eB>; arXiv:2410.07087。 [32] ソウラフ・サニャルとカウシク・ロイ。 「ASMA: シーンを認識したコントロール バリア機能を介した視覚言語ドローン ナビゲーションのための適応型安全マージン アルゴリズム」 arXiv:2409.10283、2024; *IEEE Robotics and Automation Letters* によって承認されました。 URL: <https://arxiv.org/abs/2409.10283> [33] チャン・シンユアン、ティアン・ヨンリン、フェイ・リン、ユエ・リウ、ジン・マー、コルネリア・サラ・シャトマリー、およびフェイユエ・ワン。 「LogisticsVLN: エージェント型 UAV に基づく低高度ターミナル配送のための視覚言語ナビゲーション」 arXiv:2505.03460、2025。URL: <https://arxiv.org/abs/2505.03460>[34] Hanxuan Chen、Jie Zheng、Siqi Yang、Tianle Zeng、Siwei Feng、Songsheng Cheng、Ruilong Ren、Hanzhong Guo、Shuai Yuan、Xiangyue Wang、Kangli Wang、Ji Pei。 「UAV のビジョンと言語によるナビゲーション: 進歩、課題、研究ロードマップ」 arXiv:2604.13654、2026。URL: <https://arxiv.org/abs/2604.13654> [35] クウェンチーム。 「Qwen3テクニカルレポート」 arXiv:2505.09388、2025。URL: <https://arxiv.org/abs/2505.09388> [36] DeepSeek-AI。 「DeepSeek-R1: 強化学習による LLM の推論能力の奨励」 arXiv:2501.12948、2025。URL: <https://arxiv.org/abs/2501.12948> [37] Woosuk Kwon、Zhuohan Li、Siyuan Zhuang、Ying Sheng、Lianmin Zheng、Cody Hao Yu、Joseph Gonzalez、Hao Zhang、Ion Stoica。 「PagesAttention を使用した大規模言語モデルの効率的なメモリ管理」 *オペレーティング システム原則に関する ACM シンポジウム (SOSP)*、2023 年。URL: <https://arxiv.org/abs/2309.06180>[38] あああ。 「AAAI-26 メイン テクニカル トラック: 論文募集」および「AAAI-26 再現性チェックリスト」。 2025. URL: <https://aaai.org/conference/aaai/aaai-26/main-technical-track-call/>; <https://aaai.org/conference/aaai/aaai-26/reproducibility-checklist/> [39] IEEE 高度交通システム協会。 「高度道路交通システムに関する IEEE トランザクション (T-ITS): 範囲」 URL: <https://ieee-itss.org/pub/t-its/> --- ## 15. 付録: 現在の AAAI 優先推進計画 ### 15.1 用紙の位置決め AAAI バージョンは、まず AI メソッドの論文に絞り込まれます。 **反例に基づいた検証済みの UAV 向け言語から STL への計画** 核心は「LLM が UAV を計画できる」ということではありません。ローカルのオープンソース LLM が UAV ミッション仕様を生成した後、正式な検証ツールを使用して反例診断を生成し、その後、LLM が仕様または計画を修正するように駆動され、最終的に検証可能な軌道を生成します。 ### 15.2 AAAI 貢献声明 AAAI は 3 つの貢献を提唱しています。 1. 到着、回避、順序、検査、時間窓、高度および距離の制約をカバーする、型付けされた IR から LTL/STL までの UAV ミッション仕様コンパイル チェーン。 2. 構文エラー、接地の欠落、満足できない安全でない軌道、および低い STL 堅牢性を構造化された反例フィードバックに変換する検証ガイド付き修復ループ。 3. 自然言語タスク、マップ、ゴールドスタンダード仕様、実行可能トレース、および障害診断ラベルを含む UAV-NL2STL ベンチマーク。 ### 15.3 タイムライン|時間 |タスク |出力 | |------|------|------| | 2026 年 5 月 18 日から 2026 年 5 月 24 日まで |コア文献テーブルを完成させ、ベンチマーク スキーマを凍結します。関連する作業テーブル + データセットの仕様 | | 2026 年 5 月 25 日から 2026 年 6 月 7 日まで |マップ/タスク ジェネレーター、ゴールド TaskIR/LTL/STL テンプレート、基本プランナーの実装 |データ生成スクリプト + ベースライン プランナー | | 2026 年 6 月 8 日から 2026 年 6 月 21 日まで | Spot/RTAMT 検証機能と反例のフィードバックを実装する |検証モジュール | | 2026 年 6 月 22 日から 2026 年 7 月 5 日まで |ローカル モデル、ベースライン、修復なし/完全修復の予備実験を実行する |最初のモデレーター結果表 | | 2026 年 7 月 6 日から 2026 年 7 月 19 日まで |主な実験、アブレーション、一般化、失敗例の統計 |完全な実験表と図 | | 2026-07-20 AAAI 抄録締め切り |完全な要約、導入、方法、図 1、主な結果表 | AAAI初稿 | | AAAI の全文を締め切り前に | 7 ページに圧縮、付録を追加、再現性、匿名リポジトリ |提出パッケージ | 2026 年 5 月 19 日の時点で、AAAI-27 メイン テクニカル トラックの公式 CFP は AAAI 公式 Web サイトで取得されていません。現在、AAAI-26 メインテクニカルトラックの 7 ページの技術内容、再現性チェックリスト、およびコード/データ付録要件が、依然として逆転の基礎として優先されています [38]。 AAAI-27 CFP がリリースされたら、このタイムライン、特に要約の期限、全文の期限、補足資料の期限、LLM 生成テキスト ポリシーをできるだけ早く更新する必要があります。 ### 15.4 その後の T-ITS 拡張 AAAI が後に T-ITS に拡張されるとき、新しいコンテンツはカンファレンス版とは明らかに異なるものでなければなりません。以下を追加することをお勧めします。- AirSim/SUMO または低高度物流デジタル ツイン実験。 - 複数の UAV 調整と空域紛争の仲裁。 - 交通システム指標: ミッションのスループット、空域占有率、安全マージン、配送/検査完了率、通信遅延の堅牢性。 - エッジ展開実験: Jetson または 4090 上の 4 ビット / 8 ビット モデルの遅延とエネルギーのトレードオフ。 - タイトルがAAAIの「検証された計画手法」から「高度道路交通システムのための安全な低高度UAV運用」に変更されました。 --- **バージョンに関する注意:** この記事の内容は「v2」に更新されましたが、このラウンドの「V1 バージョンで直接変更する」という要件を満たすために、ファイル名は引き続き「v1-20260517」です。 2026-05-19 の増分最適化は、データ漏洩の防止、障害分類、パラメーターの予算編成、指標の式、チャートの計画、および AAAI コンプライアンスのリスクを補完します。次のバージョンでは、データ セット スキーマとベースライン実行の最初のラウンドを完了した後、「TBD」テーブルの置き換えと実際の実験結果と失敗例の補足に重点を置いて、「v3-YYYYMMDD」に更新することをお勧めします。