LLM ガイドによる UAV ミッション計画: 推論から実行までのフロンティア

UAV ミッション計画のための LLM の 3 つの主要なパラダイム (プランナーとしての LLM、LLM+PDDL シンボル計画、LLM+RAG) を詳細に分析し、VoxPoser、ActiveGAMER、デュアルプロセス アーキテクチャなどの最先端の作業をカバーします。

LLM ガイドによる UAV ミッション計画: 推論から実行までのフロンティア

UAV インテリジェント シリーズ · 第 X+1 章 スポットライト: ミッション プランナーとしての LLM、シンボリック プランニング統合、リアルタイム推論アーキテクチャ


1. LLM が UAV ミッション計画に適しているのはなぜですか?

UAV ミッション計画の課題は、オープンワールドの不確実性にあります。

传统规划(基于模型):
输入:精确目标状态 + 精确环境模型
输出:最优动作序列
局限:模型不准就崩溃,无法处理语言目标

LLM 规划(基于知识):
输入:自然语言指令 + 视觉观测 + 世界知识
输出:可执行动作序列
优势:泛化性强、零样本理解新任务

LLM の利点:


2. タスク計画における LLM のパラダイム

2.1 パラダイム 1: プランナーとしての LLM (アクションを直接出力)

代表作:

ReAct (推論 + 行動)

SayCan (PaLM-SayCan、2022)


2.2 パラダイム 2: LLM + PDDL シンボル プランニング

PDDL (計画ドメイン定義言語) は、タスクを離散記号問題としてモデル化する古典的なロボット タスク計画言語です。

核となるアイデア:

VLM 感知 → PDDL problem 生成 → 经典规划器 → UAV 动作序列

利点:

挑戦:

---### 2.3 パラダイム 3: LLM + RAG (検索拡張生成)

GenerativeMPC (arXiv、2026)

論文: GenerativeMPC: 両手モバイル操作のための仮想インピーダンスを備えた VLM-RAG ガイド付き全身 MPC 著者: マルセリーノ フリオ フェルナンド 他 出典: arXiv、2026 年 4 月

核となるアイデア:

VLM 感知当前场景 → 检索相关操作知识库 → RAG 生成操作建议 → MPC 执行

主要なテクノロジー:

  1. 知識の検索: 運用知識ベース (ロボット制御経験データを含む) から現在のシナリオに最も関連する例を検索します。
  2. 仮想インピーダンス: 剛体衝突を回避するためのコンプライアンス制御パラメータを生成します。
  3. RAG フィルタリング: LLM 出力が物理的に実行可能であることを確認します。

UAV への適応:


3. リアルタイム推論アーキテクチャ

3.1 デュアルプロセス アーキテクチャ (arXiv、2026)

論文: リアルタイム VLM ベースの屋内ナビゲーションのためのデュアルプロセス アーキテクチャ 著者: イ・ジュニ、シン・ヒョンスン、コ・ジョンギル 出典: arXiv:2601.19401、2026 年 1 月

コアデザイン:

┌─────────────────────────────────────────────┐
│           System Architecture               │
│                                             │
│  Process 1 (Slow): VLM Reasoning Thread     │
│  ┌─────────────────────────────────────┐   │
│  │ VLM: "What should I do next?"       │   │
│  │ Frequency: ~0.2-1 Hz                 │   │
│  │ Output: Navigation goal / decision  │   │
│  └─────────────────────────────────────┘   │
│              ↓ goal                        │
│  Process 2 (Fast): Control Execution Thread│
│  ┌─────────────────────────────────────┐   │
│  │ MPC: Track trajectory to goal        │   │
│  │ Frequency: ~100 Hz                   │   │
│  │ Output: Motor control signals        │   │
│  └─────────────────────────────────────┘   │
└─────────────────────────────────────────────┘

設計原則:


3.2 階層的な計画フレームワーク

**高レベル (LLM/VLM、第 2 レベル): **

任务理解 → 子目标分解 → 全局路径规划 → 授权低层执行

**中間層 (微分可能な最適化、100ms レベル): **

RRT*/MPC → 局部路径重规划 → 平滑轨迹生成
```**低層 (PID/MPC、ミリ秒レベル): **

姿态控制 → 电机分配 → 执行


---

## 4. 主要なアルゴリズムの深さ

### 4.1 VoxPoser: LLM 合成 3D 値マップ

**論文:** *VoxPoser: 言語モデルを使用したロボット操作のための構成可能な 3D 値マップ*
**著者:** Wenlong Huang、Chen Wang、Ruohan Zhang、Yunzhu Li、Jiajun Wu、Li Fei-Fei
**出典:** arXiv:2307.05973、2023 年 7 月

**主な貢献:**
- LLM 出力 **3D 空間ヒート マップ** (構成可能な 3D 値マップ)
- ヒートマップで「どこに行くべきか」と「何を避けるべきか」をエンコード
- 軌道最適化のための報酬関数として直接使用されます。

**UAV の拡張機能:**
- VLM 出力 3D 占有ヒート マップ
- ヒート マップ駆動の MPC コスト関数
- VoxPoser for UAV = 「言語による 3D 空間アフォーダンス」

**注:** VoxPoser は arXiv で公開されました。これまでのところ、明確な会議出版物の記録は見つかっていない。

---

### 4.2 CoNVO (条件付きニューラル値最適化)

LLM 計画と値の反復を組み合わせます。
- LLM は **事前設定** (どのアクションがより合理的であるか) を提供します
- 値の反復により **最適性が保証**
- 純粋な LLM 計画よりも堅牢で、純粋な計画よりも柔軟です

---

## 5. 世界モデル支援計画

### 5.1 なぜワールドモデルなのか?

LLM の知識は静的ですが、UAV 環境は動的です。
- 風が変わる
- 障害物が移動します
- GNSS 信号はドリフトする可能性があります

ワールド モデルにより、UAV は **未来を予測**できます: 

当前状态 + 动作 → 世界模型 → 预测未来状态序列 LLM 在预测的未来状态序列上做规划(Plan over imagined futures)


### 5.2 論文代表者**ドリーマー シリーズ** (ダニエル・ハフナー、ユルグ・ヴィドマーなど)
- RSSM動的モデルに基づく
- 想像した未来に対して強化学習を行う
- ロボット(ロボットアーム、無人車両)で検証済み

**VMP (ビデオ モーション プランニング)**
- 動作計画にビデオ生成モデルを使用する
- 将来のフレームを生成 → 動きベクトルを抽出 → UAV を制御

---

## 6. セキュリティと認証

### 6.1 セキュリティが重要な理由

UAV が都市内を飛行する場合、不適切な意思決定により **人的被害**が発生する可能性があります。 LLM の確率的な出力と、航空の安全に必要な決定的な保証の間には、根本的な矛盾があります。

### 6.2 セキュリティフレームワーク

**CBF(コントロールバリア機能):**
- ASMA が UAV VLN に CBF を導入
- 危険な状態に決して到達できないようにする

**正式な検証:**
- ステートマシン検証に TLA+ / NuSMV を使用
- LLM 計画結果はモデル検証後に実行されます

**シールド:**
- 最下層プロテクター (シールド): LLM 出力を監視し、危険なアクションを遮断します。
- 上位レベルの LLM: タスクの完了に重点を置き、セキュリティの詳細は考慮しない
- **自動運転風の「ガーディアンエンジェル」アーキテクチャ**

---

## 7. フロンティアのホットスポットと今後の方向性

### 7.1 エンドツーエンド VLA (ビジョン-言語-アクション)

**最新のトレンド:** 「センシング→計画→制御」の階層設計を省略し、VLM から直接**アクショントークン**を出力します。

代表作:
- **RT-2** (Google Robotics): VLM の出力アクションを直接微調整します
- **π₀** (身体知能): 人型ロボット用の VLA
- **UAV バージョン** (新興): 同様のアイデアをドローンに適用

**挑戦:**
- 行動空間の連続性 vs 言語の離散性
・セキュリティ検証の難しさ(エンドツーエンドのブラックボックス)
- データ不足(大規模なロボット遠隔操作データが必要)

### 7.2 マルチマシンの協調 LLM 計画

**SysNav (arXiv、2026 年 3 月)****論文:** *SysNav: マルチレベルの体系的な連携により、実世界のクロスエンティティ オブジェクト ナビゲーションが可能*
**著者:** Haokun Zhu 他。
**出典:** arXiv:2603.xxxxx、2026 年 3 月

**主な貢献:**
- 異なるロボットプラットフォームにわたるマルチエージェントの協調ナビゲーション
- LLM は高レベルの調整を行います (誰がどのエリアに行くか)
- 分散型知覚融合 (各エージェントがビジョンを共有)

### 7.3 身体知能 × UAV

- **操作の基礎モデル** → **飛行の基礎モデル**
- 将来的には専用の「UAV Brain」事前トレーニングモデルが登場する可能性があります
- LLaVA に似ていますが、3D 空間推論 + 飛行力学に特化しています

---

## 8. まとめと提案

|寸法 |現在のベスト |今後の方向性 |
|------|--------|----------|
|計画パラダイム |デュアルプロセスアーキテクチャ (リアルタイム実現可能) |エンドツーエンド VLA (長期目標) |
|世界の知識 | RAG (信頼性はあるが遅い) |ワールド モデル (高速ですがトレーニングが必要です) |
|セキュリティ | CBF + シールド |正式な検証(完全保証) |
|エッジ展開 | 4 ビット LLaVA (かろうじてリアルタイム) |特殊用途チップ (NPU/TPU) |

**あなたへのアドバイス:**
1. **結果への最速ルート**: デュアルプロセス アーキテクチャ + LLaVA-7B + UAV プラットフォーム
2. **イノベーションの余地が最も大きい**: VLM + セキュリティ検証フレームワーク (現在、これを実行している人はほとんどいません)
3. **長期レイアウト**: 独自の UAV 制御データを収集し、専用の VLA モデルをトレーニングします

---

## 📚 参考資料1. リーら。 *リアルタイム VLM ベースの屋内ナビゲーションのためのデュアルプロセス アーキテクチャ*。 arXiv:2601.19401、2026。
2. フェルナンドら。 *GenerativeMPC: 仮想インピーダンスを備えた VLM-RAG ガイド付き全身 MPC*。 arXiv、2026 年。
3. 黄ら。 *VoxPoser: 言語モデルを使用したロボット操作のための構成可能な 3D 値マップ*。 arXiv:2307.05973、2023。
4. ブロハンら。 *RT-2: 視覚-言語-行動モデルはウェブの知識をロボット制御に転送します*。 arXiv、2023 年。
5. 朱ら。 *SysNav: マルチレベルの体系的な連携により、現実世界のクロスエンティティ オブジェクト ナビゲーション* が可能になります。 arXiv、2026 年。
6. アンら。 *私が言うようにではなく、できる限りのことをする: ロボットのアフォーダンスにおけるグラウンディング言語*。 arXiv、2022 年。