UAV ナビゲーションのための視覚言語モデル: 視覚言語ナビゲーションの基礎と最前線

UAV インテリジェントシリーズ · パート X 焦点: VLM+UAV の基本パラダイム、コアアーキテクチャ、および代表的な作品

1. 背景: 口頭命令から自律飛行まで

従来の UAV の経路計画は、正確な数学的目的関数 (最短経路、最小エネルギー消費など) に依存していますが、現実世界のミッション指示は、多くの場合、自然言語のあいまいな記述です。

「赤い屋根の隣のバスケットボールコートに行ってください」
「白いバンの後についていき、50メートルの距離を保ってください」
「市庁舎が見える高い地点を見つけてホバリングします」

これらの指示を数学的最適化目標に直接変換することはできませんが、VLM (Vision-Language Model) によって理解して推論することができます。ビジョン言語ナビゲーション (VLN) は、この問題を解決するための中核的な研究方向であり、ロボット (UAV) が自然言語の指示に従って 3 次元物理空間内を移動できるようにします。

2. タスク定義: VLN の中核問題

VLN タスクは次のように形式化できます。

自然言語命令と開始視覚観察が与えられた場合、エージェントに一連のアクション $、、、$ を実行させ、最終的に命令で記述された目標位置に到達させます。

主な課題は次のとおりです。

意味的根拠: 言語における空間関係 (「左」、「後ろ」、「上」) を物理空間にマッピングする
長期的な推論: 指示には、多くの場合、複雑な複数ステップのタスクが記述されています。
ゼロサンプル一般化: 目に見えない建物、環境、物体
三次元特性: UAV は地上ロボットとは異なり、完全な 3D 移動機能を備えています。

＃＃３代表作

3.1 LogisticsVLN: ターミナル配布用の UAV VLN (arXiv、2025)論文: LogisticsVLN: エージェント型 UAV に基づく低高度ターミナル配送のための視覚言語ナビゲーション

著者: Xinyuan Zhang、Yonglin Tian、Fei Lin、Yue Liu、Jing Ma、Kornélia Sára Szatmáry、Fei-Yue Wang 出典: arXiv:2505.03460、2025 年 5 月

主な貢献:

低高度 UAV ターミナル配信 を特にターゲットとした初の VLN ミッションフレームワーク
エージェントティック UAV アーキテクチャの提案: 知覚 → 推論 → 計画 → 制御の閉ループ
都市部の低高度環境における特別な課題 (建物の遮蔽、動的障害物、GNSS ドリフト)

メソッドのフレームワーク:

用户指令："送包裹到红色大门旁边"
    ↓
VLM 语义解析（物体检测 + 空间关系）
    ↓
拓扑地图匹配（检测到的地标 vs 先验地图）
    ↓
路径规划（全局粗规划 + 局部视觉重规划）
    ↓
MPC 控制器执行

重要な洞察: これは現在、実際の UAV 配信シナリオに最も近い VLN の作業であり、GPT-4V レベルのビジュアル言語モデルと物理制御層をエンドツーエンドで統合しています。

3.2 OmniVLN: オープングラウンドのクロスプラットフォームのエンドサイド VLN (arXiv、2026)

論文: OmniVLN: 空と地上のプラットフォームにわたる視覚言語ナビゲーションのための全方向性 3D 認識とトークン効率の高い LLM 推論 著者: Zhongyuang Liu、Min He、Shaonan Yu 他。 出典: arXiv、2026 年 3 月

主な貢献:

全方向性 3D 認識: 360° の球面視野認識。従来の前向きカメラよりも複雑な都市の峡谷に適しています。
トークン効率的な LLM 推論: エッジでの VLM 導入のコンピューティング能力のボトルネックを解決します。
クロスプラットフォームの統合フレームワーク: 同じアルゴリズムのセットが UAV と地上ロボットの両方に適応します技術革新:

3D トークン圧縮: 3D 空間情報をコンパクトなトークンにエンコードして、LLM 入力トークンの数を削減します。
動的な視野管理: ナビゲーションのニーズに応じて関心領域を適応的に調整します。
軽量 VLM バックボーン: Qwen-VL または LLaVA アーキテクチャに基づくクライアント側バージョン

3.3 ASMA: セキュリティ境界を意識した UAV VLN (arXiv、2024)

論文: ASMA: シーンを認識したコントロールバリア機能を介した視覚言語ドローンナビゲーションのための適応型安全マージンアルゴリズム 出典: arXiv、2024 年 9 月

主な貢献:

セキュリティ制約を VLN フレームワークに明示的に埋め込む
提案されたScene-Aware Control Barrier Functions（シーンアウェアコントロールバリア機能）
オープンな都市環境において厳しいセキュリティ制約を確保する

重要な理由: VLN の取り組みのほとんどはナビゲーションの精度に焦点を当てており、安全性は無視されています。 ASMA はこのギャップを埋めます。UAV は「指示を理解できない」ことと「壁にぶつかる」ことの間で安全性のトレードオフを行う可能性があります。

3.4 UAV の視覚と言語によるナビゲーション: 概要 (arXiv、2026)

論文: UAV のための視覚と言語のナビゲーション: 進歩、課題、および研究ロードマップ 著者: Hanxuan Chen、Jie Zheng、Siqi Yang 他。 出典: arXiv:2604.xxxxx、2026 年 4 月

対象範囲の概要:

UAV VLN 開発の歴史 (2018-2026)
手法分類：模倣学習/強化学習/LLM推論
主な課題: 3 次元空間表現、動的環境、リアルタイム推論
データセット: D3DROU、AI-TOD、UAV-VLN など。
今後の方向性：マルチモーダル大型モデル、身体化されたインテリジェンス、安全保証

---## 4. 技術的なアーキテクチャの分解

4.1 知覚層 (知覚)

カメラ構成:

タイプ	利点	デメリット
前向きRGB	成熟した、安い	視野が狭く、情報が限られている
全方位カメラ	360°の認識	解像度が低く、歪みが大きい
深度カメラ	濃密な深さ	屋外での障害、限られた範囲
マルチカメラ	ステレオ三角測量	複雑な校正

知覚モジュールの責任:

オブジェクト検出 + セマンティックセグメンテーション (Grounding DINO、YOLO-World)
空間関係抽出（左右、上下、相対距離）
シーングラフの構築 (オブジェクト + リレーションシップ + トポロジー)

4.2 レイヤーを理解する

VLM 選択の比較:

モデル	パラメータボリューム	ビジョン機能	エッジ展開	代表作
GPT-4V	～1.8T	非常に強い	❌	学術研究
GPT-4o	～200B	非常に強い	❌	クラウドAPI
LLaVA-1.6	7B/13B/34B	強い	✅ (ONNX)	ローカル展開
クウェン VL	7B/72B	強い	✅	中国のシーン
コグVLM	17B	強い	⚠️	バランスの取れたソリューション

4.3 計画層 (計画)

既存の計画パラダイム:

プランナーとしての LLM: LLM にアクションシーケンス (ReAct、Reflexion) を直接出力させます。「」命令 → LLM 推論 → アクションシーケンス → 実行「」
PDDL シンボリックプランニング: LLM が PDDL ドメイン記述を生成し、従来のプランナーによって解決されます。・代表者：ユニプラン
学習可能な計画: エンドツーエンドの模倣学習/強化学習
- 利点: 動的な環境に適応します。
- 短所: 一般化が不十分

4.4 制御層(コントロール)

UAV 制御機能:- リアルタイムの軌道追跡が必要 (>100Hz 制御周波数)

VLM/LLM の推論遅延 (第 2 レベル) がリアルタイム制御と一致しない
ソリューションのアイデア: 階層制御
- 高レベル: VLM/LLM (低速、第 2 レベル) → 目標点
- 低レベル: MPC/PID (高速、ミリ秒レベル) → モーター制御

5. 主要な課題

5.1 Sim2Real のギャップ

問題: VLM は ImageNet/COCO で事前トレーニングされており、実際の UAV 飛行中に新しい都市景観に遭遇します。
ソリューションのアイデア:
- ドメインランダム化（シミュレーションランダム化）
- 検索拡張生成 (RAG) の事前補足
- 自己教師あり適応 (Ego4D、DyTap)

5.2 推論遅延とリアルタイム制御

VLM	推論遅延	該当するシナリオ
GPT-4o	1-3秒	クラウドオフライン計画
LLaVA-7B	0.5～1秒	エッジ遅延計画
LLaVA-3B	0.2～0.5秒	エッジリアルタイム

解決策の方向性:

デュアルプロセスアーキテクチャ: 推論スレッドと制御スレッドの分離
投機的デコード
4ビット量子化（AWQ、GGUF）

5.3 三次元空間推論

言語における空間関係（「木の後ろ」、「橋の下」）は、三次元空間への単純な投影ではありません。

研究のフロンティア:

SpatialPoint: 3D 実行可能なウェイポイントを予測します
LLM はピクセルなしでも見ることができますか?: LLM 空間インテリジェンスのテスト

6. データセットの概要|データセット |プラットフォーム |スケール |特長 |

|------|------|------|------| | ＲｘＲ |地面 | 126K コマンド |多言語の専門家による注釈 | | VLN-CE |地面 | 61K の軌道 |マターポート3D | |アイ・トッド |無人航空機 | ~20K コマンド |航空遠近法、航空写真 | | UAV-VLN |無人航空機 | ～10,000 |都市の峡谷のシーン | | D3DROU |無人航空機 | ～5K |動的障害物、実際の飛行 |

7. 今後の研究の方向性

マルチモーダルフュージョン: RGB + 深度 + イベントカメラ + LiDAR
小規模サンプル適応: 特定の都市環境に適応するための LoRA / QLoRA 微調整
複数の UAV コラボレーション VLN: 複数の UAV が協力して同じコマンドを理解します。
世界モデル支援: 世界モデルを統合して将来の状態を予測する
セキュリティ検証: VLN 決定のセキュリティを検証するための正式な方法

📚 参考資料1. 張ら。 LogisticsVLN: エージェント型 UAV に基づく低高度ターミナル配送用の視覚言語ナビゲーション。 arXiv:2505.03460、2025。

リュウら。 OmniVLN: 空と地上のプラットフォームにわたる視覚言語ナビゲーションのための全方向性 3D 認識とトークン効率の高い LLM 推論。 arXiv、2026 年。
チェンら。 UAV の視覚と言語によるナビゲーション: 進歩、課題、研究ロードマップ。 arXiv、2026 年。 4.アズマ。 シーン認識コントロールバリア機能を介した視覚言語ドローンナビゲーションのための適応型安全マージンアルゴリズム。 arXiv、2024 年。
ブルーキスら。 位置訪問予測による継続的な制御アクションへのナビゲーション命令のマッピング。 CoRL、2018年。
レイショードリら。 次のゼロショットオブジェクト中心の命令: 基礎モデルと従来のナビゲーションの統合。 arXiv、2024 年。