Paper G Planning v1: 低空交通クラウドブレインにおける LLM エージェントとモデルのルート微調整

LLM をトレーニングまたは微調整して低空交通雲の脳内で検証可能なエージェントにする方法を計画し、最初の AAAI/IJCAI 会議論文、フォローアップ交通ジャーナル、一般的な具体化されたエージェント変換ルートを作成します。

Paper G Planning v1: 低空交通クラウドブレインにおける LLM エージェントとモデルのルート微調整

総合的な判断: このルートは、まず「大規模な低高度交通チャット モデル」であるべきではなく、低高度交通クラウドの脳内で検証可能な LLM エージェントである必要があります。
最初の記事では AAAI / IJCAI を優先します。LLM を、大規模な基盤モデルのトレーニングに直接コミットするのではなく、「タスクの理解、ツールの呼び出し、計画と修復、閉ループの検証、および説明のスケジュール設定」の立場に置きます。


1. 全体的な判断: なぜ大規模なモデルを直接トレーニングするのではなく、最初にエージェント クラウド ブレインを構築するのでしょうか?

「低高度交通 LLM の微調整」と直接書くと、会議の査読者は次の 3 つの質問をする可能性があります。

  1. **モデルの貢献は何ですか? ** LoRA / SFT / DPO 自体はすでに標準的なトレーニング プロセスです [14] [15] [16]。データを低空交通コーパスに置き換えるだけでは、AAAI/IJCAI本会議を支援することは困難です。

  2. **LLM が既存のスケジューリング/計画モデルよりも必要なのはなぜですか? ** 低空での交通運用には、スケジュール設定、経路計画、リスク評価、正式な検証、シミュレーションのフィードバックが含まれます。 LLM の利点は、これらのモデルを置き換えることではなく、複雑なタスクを呼び出し可能なツール チェーンに分解することです。

  3. **安全性を確保するにはどうすればよいですか? ** 低空交通クラウド ブレインは、安全性が重要なシステムです。 LLM から制御アクションを直接出力すると、幻覚や未検証の危険があります。最初の論文では、検証者、シミュレーター、リスク推定者を閉ループに入れる必要があります。

したがって、論文 G の最初の記事を「LowAltitudeGPT」と呼ぶことはお勧めできません。より良い最初の記事は次のとおりです。

CloudBrain-Agent: 低高度交通運用のためのツール強化および検証ガイド付き LLM エージェント

その中心的な貢献は「モデルがより賢くなる」ことではなく、次のことです。

交通インテリジェンスの広範なレビューから、LLM は、ITS におけるセマンティック インターフェイス、推論モジュール、および交通意思決定の補助コンポーネントとして議論されてきました [2] [3]。 UrbanGPT と UniST は、都市の時空間予測が時空間基盤モデルに移行していることを示しています [4] [5]。 Paper G はこれらの指示を直接繰り返すのではなく、「都市の時空間インテリジェンス + UAV 操作ツール + 検証可能なエージェント」を低高度交通クラウドの脳に組み合わせます。

1.1 2026-05-22 ライティングの調整: G1 は AI エージェントの論文であり、ジャーナルの拡張には完全な交通システムの物語が必要です。

論文 G は、「低空交通の大型モデルの話」として簡単に片づけられてしまいます。このルートでは、次の 2 つの評価基準を区別する必要があります。

ステージ目標メインレビューロジックやってはいけない間違い
G1 AAAI/IJCAI検証可能な LLM エージェントの方法ツールの使用、計画、検証、ベンチマーク、再現性トラフィックの説明のためのメソッドの明確さを犠牲にするか、エージェントをプラットフォーム表示として作成します。
G2 T-ITS/T-IV低空輸送分野におけるLLM微調整ドメイン データ、展開の再現性、トラフィック意思決定支援機能一般的な LoRA/SFT のみ、輸送チェーンと安全インジケータなし
G3 AAMAS/T-ITSマルチエージェントのクラウドと脳のコラボレーション多役割コラボレーション、コミュニケーション、競合処理、人間と機械のコラボレーションマルチエージェントは、システムのステータスや責任の境界がない、単なる複数のプロンプトです。
ジャーナル拡張版交通機関運営の意義安全性、効率性、容量、遅延、リソース利用率、管理のインスピレーション精度/ツール呼び出しの成功のみを報告し、交通に関する質問には答えません。したがって、G1 の主力は依然として強力な AI 手法、つまり型付き IR、ツールの使用、検証ツールの修復、およびステートフル評価です。
ただし、その後の T-ITS への拡張を容易にするために、低空交通関連のインジケーターはすべて最初から保持する必要があります。

1.2 2026-05-23 整理:Gルートの順番

Paper G は包括的なロードマップであり、実際に近い将来完成する予定のものは G1 CloudBrain-Agent です。現在、最も速く、最も提出可能なルートは、最初に大規模な垂直モデルをトレーニングするのではなく、一般的な強力なモデル + 型付き IR + ツール チェーン + ベリファイア + シミュレーター フィードバックを使用して、再現可能な閉ループを形成することです。垂直モデルのトレーニングは G2 に配置され、G1 で生成されたツール呼び出しトレース、修復トレース、障害ケースがデータとして使用されます。|ステージ |モデルをトレーニングするかどうか |推奨モデル/導入 |目標 | |------|--------------|---------------|------| |今のG1 |トレーニングへの主な貢献者としてではありません |ローカル vLLM は Qwen / DeepSeek を実行し、API モデルは教師 / 上限を実行します。エージェントツール呼び出し、検証修復、低高度タスクベンチマークが有効であることを証明 | |次のG2 | LoRA / SFT / DPO | G1 トレースによる Qwen / Llama / DeepSeek シリーズの微調整 | LowAltitudeGPT ドメイン認知モジュールの形成 | | G3以降 |オプションのマルチエージェント軌道蒸留 |マルチロールエージェント + 共有メモリ + ベリファイア |空域の監視、スケジュール、リスク、緊急事態、人間と機械のコラボレーションを研究 | | G4 長期 |マルチモーダル / ワールドモデル / VLA |データとコンピューティング能力に依存 |身体化されたトラフィック インテリジェンスへの移行 |

導入戦略の推奨事項は次のとおりです。

このシーケンスにより、送信可能な閉ループがすぐに形成されます。まずシステムを実行し、評価し、障害を説明してから、どの機能をモデルに微調整する価値があるかを判断します。


2. 低空交通クラウドブレインのシステム定義この記事の「低高度交通クラウド ブレイン」は、一般的なインテリジェント プラットフォームではなく、都市低高度 UAV 運用のための 認知操作レイヤー です。

Human / operator instruction
  -> CloudBrain LLM Agent
  -> LowAltitudeIR
  -> traffic tools / UAV tools / verifier / simulator
  -> safe decision proposal
  -> human approval or autonomous execution

2.1 入力

低高度交通雲の脳は、複数のソースのステータスを受け取ります。

入力
自然言語タスク「病院近くの緊急配達を優先し、学校や飛行禁止区域は避けてください。」
UAV ステータス位置、動力、負荷、ミッション状態、通信状態
空域状況回廊のキャパシティ、飛行禁止区域、一時的な管制、天候、風力発電所
交通手段のニーズ配送命令、検査業務、緊急事態、旅客/貨物の優先順位
シーンのステータス安全性が重要なシナリオ、事故シナリオ、ペーパー F のカバレッジ ホール
形式的制約LTL/STL 安全ルール、時間枠、最小高さ、最小間隔

2.2 出力

クラウド ブレインは「飛行アクション」を直接出力しませんが、監査可能な中間決定を出力します。

出力
低高度IR構造化されたタスク、エンティティ、制約、ツール呼び出し計画
ツール呼び出しシーケンス空域のクエリ、コール スケジューラ、コール パス プランナ、実行ベリファイア
スケジュールに関する推奨事項どの UAV がどのタスクを実行するか、地上フォールバックをトリガーするかどうか
セキュリティ診断どの制約に違反する可能性があるか、また手動による確認が必要かどうか
説明文なぜこのようにスケジュールされているのかを自然言語で説明してください

2.3 Cloud Brain はエンドツーエンドのコントローラーではありません

低高度交通雲の脳の境界は明確に書かれなければなりません。

これにより、「UAV の LLM 制御は安全ではない」という査読者の疑念が回避されます。


3. 研究ルートの概要: ドメイン LLM から一般の身体化エージェントまで

ペーパーGは4段階に分けることができます。|ステージ |論文 |目的 |主な質問 | |------|------|------|----------| | G1 |クラウドブレインエージェント | AAAI / IJCAI | LLM 低高度交通クラウド ブレインでツールを確実に呼び出して検証クローズド ループ修復に合格する方法 | | G2 |低高度GPT | T-ITS / T-IV |ローカルのオープンソース LLM を微調整して、低空の交通意思決定コグニティブ モジュールにする方法 | | G3 |マルチエージェントクラウドブレイン | AAMAS / IJCAI / T-ITS |複数の常勤エージェントが連携して低空の交通を管理する方法 | | G4 |ワールドモデル / VLA 拡張機能 |長期路線 |ドメインエージェントから身体化された一般知性へ移行する方法 |

推奨される順序は G1 -> G2 -> G3 -> G4 です。

G1 では、まず「システムが実行できるかどうか、安全に閉ループで実行できるかどうか、会議を開催できるかどうか」を解決します。次に、G2 はエージェントの軌跡をドメイン モデルに抽出します。 G3 はマルチエージェント コラボレーションを使用します。 AGI 変換については G4 でのみ説明されており、最初の記事では誇張しません。


4. 論文 G1: CloudBrain-Agent、AAAI/IJCAI の最初のカンファレンス論文

4.1 質問

CloudBrain-Agent: 低高度交通運用のためのツール強化および検証ガイド付き LLM エージェント

4.2 目標会議

最初のピッチ: AAAI/IJCAI。
代替案: AAMAS、ICRA/IROS ワークショップ、T-ITS 高速ジャーナル拡張。AAAI-26 メイン テクニカル トラックは、AI テクノロジーの方向性と輸送などの重要な応用分野にわたる作業を奨励します。本文は技術的な内容で 7 ページに制限されており、再現性チェックリストが必要です [34]。 IJCAI-ECAI 2026のAIとロボティクスの特別トラックでは、ロボットエージェント、生成AI、ロボット制御、構造化モデリング、推論、行動の結果を実行/回避する方法に明確に焦点を当てています[35]。したがって、G1 はシステム エンジニアリングのデモンストレーションではなく、AI エージェント/計画/ツールの使用/検証の論文として書かれるべきです。

4.3 主要な問題

G1 は次のように答えたいと考えています。

低高度の交通操作タスクが与えられた場合、LLM エージェントに確実にタスクを理解させ、ツールを選択し、スケジューリング/計画/検証モジュールを呼び出し、反例フィードバックの下でエラーを修正して、安全で実行可能で説明可能なクラウド脳の決定を出力させるにはどうすればよいでしょうか?

4.4 方法

提案された CloudBrain-Agent (5 つのモジュールを含む):

モジュール機能
LowAltitudeIR パーサー自然言語タスクとシステム状態を構造化表現に変換する
ツールプランナー計画ツールの呼び出しシーケンス
ツール実行者コールスケジューラー、パスプランナー、検証者、シミュレーター、リスク評価者
検証者のフィードバック ループ失敗したツール呼び出し、満たされない制約、および STL 堅牢性の失敗を修復フィードバックに変換します。
セーフティメモリ既知の危険シナリオ、失敗事例、手動決定、ルール制約を保存

CloudBrain-Agentの動作形態:

Observe -> Think -> Select Tool -> Execute -> Verify -> Repair -> Decide

これは ReAct の推論とアクションのループ [6] を継承していますが、低空の交通に特有のメカニズムが 2 つ追加されています。

  1. ツール呼び出しはタイプセーフである必要があります: 各ツールの入力と出力は、LowAltitudeIR スキーマに対してチェックされます。
  2. 決定は検証者を通過する必要があります: スケジューリングまたはパスの推奨事項は、セキュリティ検証またはシミュレーション ストレス テストを受ける必要があります。### 4.5 低高度赤外線

LowAltitudeIR は G1 の主要なパブリック インターフェイスです。

{
  "intent": "emergency_delivery",
  "entities": ["uav_12", "hospital_zone", "landing_pad_A"],
  "constraints": {
    "avoid": ["school_zone", "temporary_no_fly_zone"],
    "deadline_sec": 600,
    "min_obstacle_distance_m": 10,
    "altitude_range_m": [30, 120]
  },
  "tool_plan": [
    "query_airspace",
    "assign_uav",
    "plan_route",
    "verify_stl",
    "simulate_scenario"
  ],
  "fallback": "ground_vehicle_transfer_if_unreachable"
}

LowAltitudeIR は、次の 3 つの既存の用紙ラインと互換性がある必要があります。

4.6 ツールの収集

G1 のツールは、最初から実際のシステム上に構築する必要はありません。まず、再現可能な実験ツールを構築します。

ツール入力出力
クエリ空域地域、時間、ミッションの種類廊下、飛行禁止区域、天候、収容人数
assign_uavタスク、UAV ステータス、優先度UAV タスクの割り当て
計画ルート開始、終了、制約パスまたは UNREACHABLE
verify_ltl_stlタスクの仕様、軌道合格 / 不合格 / 反例
シミュレーションシナリオシナリオシード、戦略成功、衝突、遅延、リスク
リスク評価タスクとシナリオリスクレベル、主な制約
説明_決定意思決定の軌跡人間が読める説明

4.7 ベースライン|ベースライン |説明 |

|----------|------| | LLM の直接決定 | LLM はスケジューリング/パスの提案を直接提供します。 |プロンプトのみの ReAct | ReAct スタイルのツール呼び出しですが、型制約とベリファイアはありません [6] | | Toolformer / ToolLLM スタイルのツール使用 |ツールを呼び出す方法を学びますが、低レベルのセキュリティ検証は実行しません [7] [8] | | TrafficGPT スタイルのオーケストレーション | LLM はトラフィック モデルを呼び出しますが、UAV の制約や正式な検証はありません [1] | | LLM+P / クラシックプランナー | LLM 変換の問題、外部プランナーによって解決 [10] | | VERA-UAV のみ |言語を仕様に合わせて検証するだけで、クラウド脳のマルチツール スケジューリングは不要 | | CloudBrain-Agent フル | LowAltitudeIR + ツールの使用 + 検証者 + シミュレーターのフィードバック |

PlanBench とその後の LLM 計画機能に関する重要な研究は、LLM に口頭で計画をさせるだけでは信頼性が低く、外部の計画者、制約チェック、再現可能な実験タスクを導入する必要があることを示しています [11] [12]。同時に、AerialVLN と現実的な UAV-VLN の作業は、低高度視覚言語ナビゲーションのベンチマーク ソースとして使用できます [23] [24]。 DriveLM、LMDrive、DriveVLM、および LaMPilot は、自動運転 VLM/LLM ベンチマークおよび閉ループ意思決定パラダイムの水平基準として使用できます [25] [26] [27] [28]。

4.8 評価指標|インジケーター |意味 |

|------|------| |タスクの成功率 |クラウドブレインタスク完了率 | |ツール呼び出しの精度 |ツールの選択とパラメータが正しいかどうか | |実行可能決定率 |出力がスケジューラー/プランナーによって実行可能かどうか | |安全違反率 |飛行禁止区域、距離、高度、期限に違反していないか | |幻覚率 |存在しないエンティティ、ツール、状態を参照するかどうか | |修理成功率 |検証失敗後の修復可能かどうか | |シミュレーターストレス合格率 | Paper F の危険シナリオでの合格率 | |レイテンシ |単一タスクの意思決定時間 | |一般化 |見たことのない都市、見たことのないタスク、見たことのないツールの組み合わせでのパフォーマンス |

4.9 期待されるイノベーションポイント

  1. 低高度交通クラウドブレインのための「LowAltitudeIR」と型付きツール使用エージェントアーキテクチャを提案する。
  2. スケジューリング、パス計画、正式な検証、およびシナリオのシミュレーションを LLM エージェントの意思決定の閉ループに統合します。
  3. LLM がプロンプト再試行のみに依存しないように、検証ガイド付き修復を提案します。
  4. タスクの分解、ツールの呼び出し、スケジューリング、検証、解釈をカバーする、低高度交通クラウド ブレイン ベンチマークを構築します。

5. 論文 G2: 低高度交通分野における LowAltitudeGPT、LLM の微調整

5.1 質問

LowAltitudeGPT: 低高度交通意思決定支援のための命令チューニング LLM

5.2 目標

G2 はモデル微調整用紙です。目標は、エージェントの走行軌跡、人為的なルール、シミュレーションのフィードバック、G1 の検証および修復データをローカルのオープンソース モデルに抽出し、そのモデルを低高度交通クラウドの脳のド​​メイン認知モジュールにできるようにすることです。候補提出物: T-ITS、IEEE T-IV、応用インテリジェンス、知識ベース システム。 T-ITS はインテリジェント交通システム、交通運用、安全性の意思決定を強調するのにより適しており、T-IV はインテリジェント車両/無人システムのモデルと評価を強調するのにより適しています [36] [37]。モデルのトレーニングと評価が十分に強力であれば、AAAI / IJCAI ワークショップやメインカンファレンスの拡張も行うことができます。

5.3 トレーニングルート

次の 3 つの段階が推奨されます。

ステージメソッドデータ
SFTLoRA / QLoRA の微調整 [14] [15]低空交通 Q&A、NL から IR へ、ツール呼び出し追跡、緊急通訳
好みのチューニングDPO / プリファレンスの最適化 [16]安全な決定は危険な決定よりも優れており、実行可能なツールのシーケンスは幻覚ツールのシーケンスよりも優れています。
検証可能な RL検証者とエミュレーターベースのルール報酬タスクの成功、低リスク、低遅延、幻覚なし、STL によって検証

DeepSeek-R1 は、強化学習 [19] を通じて推論能力を刺激できることを示していますが、G2 は推論モデルを最初からトレーニングすべきではありません。より現実的な方法は、Qwen/DeepSeek/Llama オープン ソース モデルをベースとして使用し、LoRA/QLoRA を使用して効率的なパラメーター微調整を行い、次に小規模な調整に検証者報酬を使用することです。

5.4 データ構築

データはチャット Q&A に使用するだけでなく、次の 7 つのカテゴリに分類する必要があります。|データ型 |例 | |----------|------| |ドメインQA | 「低空通路のキャパシティーが足りない場合、緊急時の対応はどうするのか?」 | | NL から低高度 IR まで |自然言語タスクから構造化 IR | |ツール呼び出しトレース |正しいツール呼び出しシーケンスとパラメータ | |検証修理 |修復された IR への失敗した反例 | |スケジュールの説明 |スケジュール結果の説明 | |緊急対応 |高速・都市部の緊急現場対応 | |安全性の拒否 |安全でない場合や情報が不十分な場合の拒否/説明 |

データソース:

5.5 モデルの選択

初版の提案:

最初の段階で 70B を超えるモデルをトレーニングすることはお勧めできません。この論文の焦点はモデルのサイズではなく、ドメイン ツールの使用調整検証フィードバック トレーニングにあります。

5.6 評価指標|インジケーター |意味 |

|------|------| | IR 完全一致 / フィールド F1 | LowAltitudeIR 構造化出力品質 | |ツール呼び出しの成功 |ツール名、順序、パラメータ精度 | |検証済み決定率 |ベリファイアを通過する出力の割合 | |安全拒否精度 |安全でない/情報不足のタスクを拒否するか明確にするか | |修理能力 |反例を見た後の修復成功率 | |ローカル展開の遅延 |ローカル推論のレイテンシとメモリ使用量 | |都市間の一般化 |まだ見ぬ都市・風景の一般化 |


6. 論文 G3: マルチエージェント クラウド ブレイン、マルチエージェント協調クラウド ブレイン

6.1 質問

協力的な低高度 UAV 交通管理のためのマルチエージェント クラウド ブレイン

6.2 目標

G3 は、単一エージェントから複数エージェントのコラボレーションまで拡張されます。候補提出物: AAMAS、IJCAI、AAAI、T-ITS。

AAMAS は、自律エージェントとマルチエージェント システム [38] に焦点を当てます。これは、低高度交通クラウド ブレインにおける複数の役割のコラボレーションに非常に適しています。

6.3 エージェントの役割分担

エージェント責任
空域モニター廊下、飛行禁止区域、天候、収容人数を監視
フリート スケジューラタスクキューとUAV配布を担当
安全性検証者LTL/STL、リスク、反例を担当
シナリオテスターPaper F シーン ジェネレーターを呼び出してストレス テストを実行する
緊急コーディネーター緊急対応と地上連携を担当
ヒューマン インターフェイス エージェント説明、明確化、人間による確認を担当
  1. 複数のエージェントは単一のエージェントよりも信頼性が高くなりますか?
  2. 共有メモリはエラーを伝播しますか?
  3. 2 人のエージェントが対立した場合、最終的な意思決定権限を持つのは誰ですか?
  4. 検証者は仲裁者として機能できますか?
  5. 複数のエージェントによる遅延は許容されますか?

6.5 イノベーションのポイント

G3 の革新性は、「複数の GPT が相互にチャットする」ことではありません。


7. 論文 G4: 一般的な AGI 機能移行のための World-Model/VLA 拡張

7.1 全体的な位置付け

G4 は長期的なルートであり、最初の 2 つの記事で誇張すべきではありません。推奨される表現は次のとおりです。

一般的な身体化された交通インテリジェンスに向けて

「AGIの実装」の代わりに。

Voyager のオープンエンドの身体化エージェントと SayCan の言語からロボットへのアフォーダンスの基盤は、LLM が身体化されたインテリジェンスに移行するための鍵となるのは、チャットできることではなく、環境フィードバック、スキル ライブラリ、およびアクションの制約を継続的に改善できることであることを示しています [9] [13]。低高度交通クラウドの頭脳は、このアイデアをより安全でより評価可能な交通運用ドメインに組み込むことができます。

7.2 これが AGI 方向の論理エントリであるのはなぜですか?

低高度交通雲の脳には、一般的な身体化された知能に必要ないくつかの機能が当然含まれています。

7.3 長期的な技術ロードマップ

ステージ能力テクノロジー
G1ツールの呼び出しと検証の閉ループLLM エージェント + LowAltitudeIR
G2ドメインモデルSFT / LoRA / DPO / 検証者報酬
G3マルチエージェントのコラボレーション共有メモリ + 検証者による調停
G4ワールドモデル時空間予測 + シミュレータフィードバック
G5VLA / 具現化されたポリシーアクションの推奨事項へのマルチモーダルな入力ですが、依然として安全層によって実行されます。

AGI 変革のキーワードは、一般化、継続的な学習、身体化された推論、自己評価、ツールの作成 である必要があります。 「AGI モデルをトレーニングしました」とは書かないでください。


8. データ構築とトレーニング計画

8.1 データ要約表|データセット |出典 |使い方 |

|------|------|------| |低高度命令 |手動テンプレート + LLM 生成 + 手動サンプリング |自然言語タスクの理解 | | LowAltitudeIR-ゴールド |ルール生成 + 手動修正 | IR研修と評価 | |ツールトレースベンチ | G1 エージェント実行トレース |ツール呼び出し SFT | | VerifyRepairベンチ |論文 E 反例修復 |検証とエラー修正のトレーニング | |シナリオストレスベンチ |ペーパー F シナリオ生成 |危険なシーンの一般化 | | FleetOps ベンチ |ペーパー B のスケジュール シミュレーション |タスクキューとリソースのスケジューリング | |緊急運用ベンチ |高速・都市型緊急総合事例 |緊急意思決定 |

シミュレーション層では、最初に軽量の自作シミュレーターを使用して制御可能な変数を確保し、次に AirSim と Flightmare を使用して視覚的、動的、閉ループの飛行補助検証を行うことが推奨されます [32] [33]。このようにして、G1/G2 は頑丈なシミュレータに依存せずに再現でき、将来的にはより現実的な UAV シナリオに自然に拡張できます。

8.2 トレーニングのサンプル形式

JSONL に統一することをお勧めします。

{
  "instruction": "优先处理医院附近应急配送,避开学校和临时禁飞区。",
  "state": {
    "uavs": "...",
    "airspace": "...",
    "tasks": "..."
  },
  "target_ir": {
    "intent": "emergency_delivery",
    "constraints": ["avoid_school", "avoid_no_fly_zone"]
  },
  "tool_trace": [
    {"tool": "query_airspace", "args": {"region": "hospital_zone"}},
    {"tool": "assign_uav", "args": {"priority": "emergency"}},
    {"tool": "verify_ltl_stl", "args": {"spec": "..."}}
  ],
  "verifier_feedback": "pass",
  "final_answer": "建议派遣 uav_12,经 corridor_B 绕开学校区域。"
}

8.3 トレーニング段階

  1. プロンプト + RAG ベースライン トレーニングを行わずに、最初にタスク定義とツールのスキーマを確認します。

  2. SFT/LoRA トレーニングされたモデルは LowAltitudeIR とツール呼び出しトレースを出力します。

  3. DPO/プリファレンスチューニング 安全で、実行可能で、幻覚が少なく、待ち時間が短い意思決定を好みます。

  4. 検証者の報酬の調整 バリデーターとシミュレーターの結果をルール報酬として使用して、修復機能を強化します。

  5. 蒸留 強力なモデルまたはマルチエージェントの軌跡をローカル 7B/14B モデルに抽出します。


9. 実験計画、ベースライン、評価指標

9.1 G1 メイン実験|実験 |目的 |

|------|------| |ツールの使用による成功 |テストツールの選択とパラメータの入力 | |検証済みの計画 |スケジュール/パスが検証に合格するかどうかをテストする | |ループを修復する |反例のフィードバックによって成功率が向上するかどうかをテストする | |シナリオストレステスト | Paper F の危険なシナリオで堅牢性をテストする | |一般化 |未知の都市、未知のタスク、未知のツールの組み合わせをテストする |

9.2 G2 微調整実験

実験目的
Base vs LoRA vs QLoRA微調整の利点を確認する
SFT 対 DPOプリファレンス調整の利点を検証する
検証者フィードバックの有無セキュリティ フィードバック値を確認する
7B 対 14B 対推論モデルローカル展開のコストとパフォーマンスのトレードオフを検証する
クロスシナリオ転送合成シナリオから緊急シナリオへの移行を検証する

9.3 ベースライン

ベースライン説明
GPT/Qwen の直接の回答直接的な回答、ツールなし
ReAct プロンプト推論と行動のプロンプト [6]
Toolformer スタイルの API 呼び出し安全閉ループを使用しないツール呼び出し [7]
ToolLLM スタイルのトレーニングを受けたツール ユーザーオープンソース ツール呼び出しトレーニング ベースライン [8]
TrafficGPT スタイルのトラフィック オーケストレーションLLM + トラフィック モデル [1]
LLM+PLLM + 外部プランナー [10]
CloudBrain-Agent フルこの記事の方法

9.4 指標|メトリクス |目標 |

|------|------| |タスクの成功 |クラウドブレインタスク完了率 | |ツール呼び出しの精度 |ツール呼び出しの精度 | | IR フィールド F1 | LowAltitudeIR フィールドレベルの精度 | |幻覚率 |存在しないツール/エンティティ/ルールの割合 | |安全違反率 |安全規則違反の割合 | |修理成功 |反例の修復成功率 | |レイテンシ |意思決定の遅れ | |人間の信頼スコア |人間の査読者の説明品質 | |一般化スコア |目に見えないシーンの一般化 |


10. 推奨される送信パス

10.1 最初の集合ルート

**G1 の最初の投票 AAAI / IJCAI。 **

用紙種類:AIエージェント+企画+検証+輸送申請。

主要な貢献は 3 つに分かれています。

  1. LowAltitudeIR および低高度交通ツールを使用するエージェント アーキテクチャ。
  2. 検証ガイド付き修復ループ。
  3. 低高度雲脳ベンチマークと評価プロトコル。

10.2 フォローアップジャーナルルート

提出
G2 低高度 GPTT-ITS / T-IV / 応用インテリジェンス
G3 マルチエージェント クラウド ブレインAAMAS -> T-ITS 拡張
G4 ワールドモデル/VLAICRA / IROS / T-RO / 長期AGI中心の会場

10.3 推奨されないルート- 最初の記事で大きなモデルをトレーニングすることはお勧めしません。

・メインタイトルに「AGI Cloud Brain」と書くことは推奨しません。


11. 参考文献

[1] Siyao Zhang、Daocheng Fu、Wenzhe Liang、Zhao Zhang、Bin Yu、Pinlong Cai、Baozhen Yao。 「TrafficGPT: トラフィック基盤モデルの表示、処理、および対話」。 交通政策、150:95-105、2024。DOI: 10.1016/j.tranpol.2024.03.006。 URL: https://www.sciencedirect.com/science/article/pii/S0967070X24000726

[2] Sebastian Wandert、Changhong Zheng、Shuang Wang、Yucheng Liu、Xiaoqian Sun。 「インテリジェントな交通のための大規模言語モデル: 最先端技術と課題のレビュー」 応用科学、14(17):7455、2024。DOI: 10.3390/app14177455。 URL:https://www.mdpi.com/2076-3417/14/17/7455[3] ドア・マフムード、ハディール・ハイモハメド、シャンマ・アルメンテリ、シャンマ・アルカイディ、ラメヤ・アルダヘリ、ルフル・アミン・ハリル、ナシル・サイード。 「LLM と ITS の統合: 最近の進歩、可能性、課題、および将来の方向性」 高度道路交通システムに関する IEEE トランザクション、26(5):5674-5709、2025。DOI: 10.1109/TITS.2025.3528116。 URL: https://ieeexplore.ieee.org/document/10851302

[4] Zhonghang Li、Lianghao Xia、Jiabin Tang、Yong Xu、Lei Shi、Long Xia、Dawei ying、Chao Huang。 「UrbanGPT: 時空間大規模言語モデル」 arXiv:2403.00813、2024。URL: https://arxiv.org/abs/2403.00813

[5] ユアン・ユアン、ジンタオ・ディン、ジエ・フォン、デペン・ジン、ヨン・リー。 「UniST: 都市の時空間予測のための即時強化されたユニバーサル モデル」 知識発見とデータ マイニング (KDD) に関する ACM SIGKDD 会議の議事録、2024 年。DOI: 10.1145/3637528.3671662。 URL: https://arxiv.org/abs/2402.11838[6] ヤオ・シュンユー、ジェフリー・チャオ、ディアン・ユー、ナン・ドゥ、イザク・シャフラン、カルティク・ナラシンハン、袁操。 「ReAct: 言語モデルにおける推論と行動の相乗効果」 学習表現に関する国際会議 (ICLR)、2023 年。URL: https://openreview.net/forum?id=WE_vluYUL-X

[7] ティモ・シック、ジェーン・ドウィヴェディ・ユー、ロベルト・デッシ、ロベルタ・ライレヌ、マリア・ロメリ、エリック・ハンブロ、ルーク・ゼトルモイヤー、ニコラ・カンセダ、トーマス・シャロム。 「ツールフォーマー: 言語モデルはツールの使い方を自らに教えることができる。」 神経情報処理システムの進歩 36 (NeurIPS)、2023 年。URL: https://proceedings.neurips.cc/paper_files/paper/2023/hash/d842425e4bf79ba039352da0f658a906-Abstract-Conference.html[8] Yujia Qin、Shihao Liang、Yine Ye、Kunlun Zhu、Lan Yan、Yaxi Lu、Yankai Lin、Xin Cong、Xiangru Tang、Bill Qian、Sihan Zhao、Runchu Tian、Ruobing Xie、Jie Zhou、Mark Gerstein、Dahai Li、Zhiyuan Liu、Maosong Sun。 「ToolLLM: 16000 を超える現実世界の API をマスターするための大規模言語モデルの促進」 学習表現に関する国際会議 (ICLR)、2024 年。URL: https://openreview.net/forum?id=dHng2O0Jjr

[9] Guanzhi Wang、Yuqi Xie、Yunfan Jiang、Ajay Mandlekar、Chaowei Xiao、Yuke Zhu、Linxi Fan、Anima Anandkumar。 「Voyager: 大規模な言語モデルを備えたオープンエンドの具体化されたエージェント」 arXiv:2305.16291、2023。URL: https://arxiv.org/abs/2305.16291

[10] Bo Liu、Yuqian Jiang、Xiaohan Zhang、Qiang Liu、Shiqi Zhang、Joydeep Biswas、Peter Stone。 「LLM+P: 最適な計画能力を備えた大規模言語モデルの強化」。 arXiv:2304.11477、2023。URL: https://arxiv.org/abs/2304.11477[11] Karthik Valmeekam、Matthew Marquez、Alberto Olmo、Sarath Sreedharan、Subbarao Kambhampati。 「PlanBench: 変更に関する計画と推論に関する大規模な言語モデルを評価するための拡張可能なベンチマーク」 神経情報処理システムの進歩 36 (NeurIPS) データセットとベンチマーク トラック、2023 年。URL: https://openreview.net/forum?id=YXogl4uQUO

[12] Karthik Valmeekam、Alberto Olmo、Sarath Sreedharan、Subbarao Kambhampati。 「大規模言語モデルの計画能力について: 重要な調査」。 神経情報処理システムの進歩 36 (NeurIPS)、2023 年。URL: https://arxiv.org/abs/2305.15771[13] マイケル・アン、アンソニー・ブロハン、ノア・ブラウン、エフゲン・チェボタール、オマール・コルテス、バイロン・デイヴィッド、チェルシー・フィン、キールタナ・ゴパラクリシュナン、カロル・ハウスマン、アレックス・ヘルツォーグ、ダニエル・ホー、他。 「私が言うことではなく、できる限りのことをする: ロボットによるアフォーダンスにおける言語のグラウンディング」 ロボット学習に関するカンファレンス (CoRL)、PMLR 205、2022。URL: https://proceedings.mlr.press/v205/ahn23a.html

[14] Edward J. Hu、Yelong Shen、Phillip Wallis、Zeyuan Allen-Zhu、Yuanzhi Li、Shean Wang、Lu Wang、Weizhu Chen。 「LoRA: 大規模言語モデルの低ランク適応」。 学習表現に関する国際会議 (ICLR)、2022 年。URL: https://openreview.net/forum?id=nZeVKeeFYf9[15] ティム・デットマーズ、アルティドロ・パニョーニ、アリ・ホルツマン、ルーク・ゼトルモイヤー。 「QLoRA: 量子化された LLM の効率的な微調整」 神経情報処理システムの進歩 36 (NeurIPS)、2023 年。URL: https://proceedings.neurips.cc/paper_files/paper/2023/hash/1feb87871436031bdc0f2beaa62a049b-Abstract-Conference.html

[16] ラファエル・ラファイロフ、アーキット・シャルマ、エリック・ミッチェル、ステファノ・エルモン、クリストファー・D・マニング、チェルシー・フィン。 「直接的な好みの最適化: 言語モデルは密かに報酬モデルです。」 神経情報処理システムの進歩 36 (NeurIPS)、2023 年。URL: https://proceedings.neurips.cc/paper_files/paper/2023/hash/a85b405ed65c6477a4fe8302b5e06ce7-Abstract-Conference.html[17] ワン・イージョン、イェガネ・コルディ、スワループ・ミシュラ、アリサ・リュー、ノア・A・スミス、ダニエル・カシャビ、ハンナネ・ハジシルジ。 「Self-Instruct: 言語モデルと自己生成された命令の調整」。 計算言語学協会 (ACL) 年次総会、2023 年。URL: https://aclanthology.org/2023.acl-long.754/

[18] クウェンチーム。 「Qwen2.5テクニカルレポート」 arXiv:2412.15115、2024。URL: https://arxiv.org/abs/2412.15115

[19] DeepSeek-AI。 「DeepSeek-R1: 強化学習による LLM の推論能力の奨励」 arXiv:2501.12948、2025。URL: https://arxiv.org/abs/2501.12948

[20] Bo Liu、Yuqian Jiang、Xiaohan Zhang、Qiang Liu、Shiqi Zhang、Joydeep Biswas、Peter Stone。 「Lang2LTL: 大規模言語モデルを使用した自然言語コマンドの時間仕様への変換」 ロボット学習に関するカンファレンス (CoRL)、PMLR 229、2023。URL: https://proceedings.mlr.press/v229/liu23d.html[21] ベフラド・ラビエイ、マヘシュ・クマール・A・R、ジルイ・ダイ、スーリヤ・L・S・R・ピラ、キユエ・ドン、ニコライ・アタナソフ。 「LTLCodeGen: ロボット タスク プランニングのための構文的に正しい時相ロジックのコード生成」 arXiv:2503.07902、2025。URL: https://arxiv.org/abs/2503.07902

[22] ジュン・ワン、デヴィッド・スミス・サンダーシン、ジョティルモイ・V・デシュムク、ヤニス・カンタロス。 「ConformalNL2LTL: 自然言語命令を、等角的な正確性が保証された時間論理式に変換する。」 arXiv:2504.21022、2025。URL: https://arxiv.org/abs/2504.21022

[23] Shubo Liu、Hongsheng Zhang、Yuankai Qi、Peng Wang、Yanning Zhang、Qi Wu。 「AerialVLN: UAV のための視覚と言語のナビゲーション」。 IEEE/CVF コンピューター ビジョンに関する国際会議 (ICCV)、2023 年、15384 ~ 15394 ページ。 URL: https://openaccess.thecvf.com/content/ICCV2023/html/Liu_AerialVLN_Vision-and-Language_Navigation_for_UAVs_ICCV_2023_paper.html[24] Xiangyu Wang、Donglin Yang、Ziqin Wang、Hohin Kwan、Jinyu Chen、Wenjun Wu、Hongsheng Li、Yue Liao、Si Liu。 「現実的な UAV ビジョン言語ナビゲーションに向けて: プラットフォーム、ベンチマーク、および方法論」 学習表現に関する国際会議 (ICLR)、2025 年。URL: https://openreview.net/forum?id=rUvCIvI4eB

[25] Chonghao Sima、Katrin Renz、Kashyap Chitta、Li Chen、Hanxue Zhang、Chengen Xie、Jens Beisswenger、Ping Luo、Andreas Geiger、Hongyang Li。 「DriveLM: グラフによる視覚的な質問応答による運転」。 arXiv:2312.14150、2023。URL: https://arxiv.org/abs/2312.14150

[26] Hao Shao、Yuxuan Hu、Letian Wang、Steven L. Waslander、Yu Liu、Hongsheng Li。 「LMDrive: 大規模な言語モデルを使用した閉ループのエンドツーエンド駆動」。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議、2024 年。URL: https://arxiv.org/abs/2312.07488[27] Xiaoyu Tian、Junru Gu、Bailin Li、Yicheng Liu、Yang Wang、Zhiyong Zhao、Kun Zhan、Peng Jia、Xianpeng Lang、およびHang Zhao。 「DriveVLM: 自動運転と大規模視覚言語モデルの融合」 arXiv:2402.12289、2024。URL: https://arxiv.org/abs/2402.12289

[28] Yunsheng Ma、Can Cui、Xu Cao、Wenqian Ye、Peiran Liu、Juanwu Lu、Amr Abdelraouf、Rohit Gupta、Kyungtae Han、Aniket Bera、James M. Rehg、Ziran Wang。 「LaMPilot: 言語モデル プログラムを使用した自動運転用のオープン ベンチマーク データセット」 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議、2024 年、15141 ~ 15151 ページ。 URL: https://openaccess.thecvf.com/content/CVPR2024/html/Ma_LaMPilot_An_Open_Benchmark_Dataset_for_Autonomous_Driving_with_Language_CVPR_2024_paper.html[29] ダニー・ドリース、フェイ・シア、メディ・S・M・サジャディ、コーリー・リンチ、アーカンクシャ・チョードリー、ブライアン・イクター、アイザーン・ワヒド、ジョナサン・トンプソン、クアン・ヴオン、ティアンヘ・ユー、ウェンロン・ファン、エフゲン・チェボタル、ピエール・セルマネ、ダニエル・ダックワース、セルゲイ・レヴィン、ヴィンセント・ヴァンホーク、カロルハウスマン、マルク・トゥーサン、クラウス・グレフ、アンディ・ゼン、イーゴリ・モルダッチ、ピート・フローレンス。 「PaLM-E: 身体化されたマルチモーダル言語モデル」 機械学習に関する国際会議 (ICML)、PMLR 202、2023。URL: https://proceedings.mlr.press/v202/driess23a.html

[30] アンソニー・ブロハン、ノア・ブラウン、カルバハル判事、エフゲン・チェボタル、シー・チェン、クシシュトフ・チョロマンスキー、ティンリ・ディン、ダニー・ドリース、アヴィナヴァ・デュベイ、チェルシー・フィン、ピート・フローレンス、他。 「RT-2: 視覚-言語-行動モデルはウェブの知識をロボット制御に転送します。」 arXiv:2307.15818、2023。URL: https://arxiv.org/abs/2307.15818[31] ムー・ジン・キム、カール・ペルチュ、シッダース・カラムチェティ、テッド・シャオ、アシュウィン・バラクリシュナ、スラジ・ネール、ラファエル・ラファイロフ、イーサン・フォスター、グレース・ラム、パンナグ・サンケティ、クアン・ヴオン、トーマス・コラー、ベンジャミン・バーフフィール、ラス・テドレイク、ドーサ・サディ、セルゲイ・レヴィン、パーシー・リャン、チェルシー・フィン。 「OpenVLA: オープンソースのビジョン・言語・アクション・モデル」 arXiv:2406.09246、2024。URL: https://arxiv.org/abs/2406.09246

[32] シタル・シャー、デバディープタ・デイ、クリス・ラヴェット、アシシュ・カプール。 「AirSim: 自動運転車向けの高忠実度の視覚的および物理的シミュレーション」 フィールドおよびサービス ロボティクス、先端ロボット工学における Springer Proceedings、2017 年。 arXiv:1705.05065。 URL: https://arxiv.org/abs/1705.05065

[33] ユンロン・ソン、セリム・ナジ、エリア・カウフマン、アントニオ・ロケルシオ、ダヴィデ・スカラムッツァ。 「Flightmare: 柔軟なクワドローター シミュレーター」 ロボット学習に関するカンファレンス (CoRL)、PMLR 155、2021。URL: https://proceedings.mlr.press/v155/song21a.html[34] あああ。 「AAAI-26 メインテクニカルトラック: 論文募集」 URL: https://aaai.org/conference/aaai/aaai-26/main-technical-track-call/

[35] IJCAI-ECAI 2026。「論文募集 – AI とロボット工学の特別トラック」。 URL: https://2026.ijcai.org/ijcai-ecai-2026-call-for-papers-ai-and-robotics/

[36] IEEE 高度交通システム協会。 「高度道路交通システムに関する IEEE トランザクション (T-ITS): 範囲」 URL: https://ieee-itss.org/pub/t-its/

[37] IEEE 高度交通システム協会。 「インテリジェント車両に関するIEEEトランザクション」。 URL: https://ieee-itss.org/pub/t-iv/

[38] AAMAS 2026。「論文募集 – メイントラック」。 URL: https://cyprusconferences.org/aamas2026/call-for-papers-main-track/


付録: 12 か月のプロモーション プラン

1 ~ 2 か月目: G1 の問題とインターフェイスを凍結します

5 ~ 6 か月目: G1 ベースラインの実装

7 ~ 8 か月目: CloudBrain-Agent の完全実装

月 9 ~ 10: 主な実験

月 11: G2 の事前実験の微調整

月 12: AAAI/IJCAI 初稿

-G1カンファレンスの論文を執筆します。