都市低空 UAV ルート計画: マルチモーダルシミュレーションデータ合成

方向 5: マルチモーダルシミュレーションデータの合成 拡張章・技術ブログシリーズパート 5

1. 背景: データ不足とセキュリティ制約という二重のジレンマ

都市部の低高度 UAV 計画アルゴリズム (特に深層強化学習に基づくプランナー) のトレーニングは、データ不足と安全性の制約という二重のジレンマに直面しています。

データ不足: 実際の飛行データを収集するコストは高くなります。多くの人員管理と現場のセキュリティが必要であり、複雑な都市シーンの特殊なケース (異常気象、突然の障害物、信号干渉) をシステムでカバーするのは困難です。パブリックデータセット (MAVNet、UZH-FPV など) は規模が限られており、エンドツーエンドの深層学習モデルのトレーニングをサポートすることが困難です。

安全性の制約: 強化学習プランナーは、トレーニングの初期段階で多くの「探索的」行動を生成します。本物の UAV を直接訓練すると、衝突や制御不能などの事故が発生する可能性があります。シミュレーション環境は ゼロリスクのトレーニング会場を提供しますが、シミュレーションと現実のギャップ (Sim2Real ギャップ) により、シミュレーションでトレーニングされた戦略は実際の UAV では完全に無効になります。

マルチモーダルシミュレーションデータ合成は、時代の要求に応じて登場しました。これは、高忠実度のマルチセンサーシミュレーション環境を構築し、大規模で多様なトレーニングデータを体系的に生成すると同時に、ドメインランダム化と Sim2Real 移行テクノロジーを使用してシミュレーションと現実の間のギャップを埋めることによって行われます。

2. マルチモーダルセンサーシミュレーション

2.1 マルチモーダリティが必要な理由

単一センサーには固有の機能限界があります。都市部の低高度 UAV を安全に運用するには、冗長センシング機能が必要です。

センサー	コアコンピテンシー	主な制限	補足事項
RGB カメラ	テクスチャ認識、意味理解	夜間の失敗、深度情報なし	セマンティックセグメンテーション機能を提供する
ライダー	正確な測距、3D マッピング	まばら、高コスト	正確な形状を提供する
ミリ波レーダー	全天候型の直接速度測定	ノイズが多く、解像度が低い	移動目標の検出を提供
熱画像処理	歩行者検知、ナイトビジョン	温度差の曖昧性、低分解能	脆弱な道路利用者を検出する
超音波	近距離での障害物回避	短距離、干渉を受けやすい	正確な近距離知覚を提供します

2.2 センサーシミュレーションの原理

RGB カメラシミュレーション 物理ベースレンダリング (PBR) パイプラインに基づく:

ここで、は双方向反射分布関数 (BRDF)、は入射放射照度、PBR パイプラインは光とシーンマテリアルの物理的相互作用をシミュレートすることによってフォトリアリスティックな画像を生成します。 Unreal Engine 5 の Nanite 仮想ジオメトリシステムと Lumen グローバルイルミネーションシステムは、現在、物理的現実に最も近いリアルタイムレンダリングソリューションです。

LiDAR シミュレーションは通常、レイキャスティングに基づいています。つまり、各走査線方向に沿って LiDAR 位置から光線を放射し、シーンのジオメトリとの交差を検出し、距離と反射強度を返します。

はシーンが占有するジオメトリです。ハイエンド LiDAR シミュレーション (NVIDIA FLIPS など) では、マルチエコーや波形の広がりなどの物理的効果もシミュレートできます。

ミリ波レーダーシミュレーションは、電磁波伝播モデルに基づいて、信号のマルチパス効果 (マルチパス)、シャドウイング減衰 (シャドーイング)、および地面反射 (グラウンドバウンス) をシミュレートします。

You can't use 'macro parameter character #' in math modeP_r = P_t \cdot \frac{G_t G_r \lambda^2}{(4\pi)^3 R^4} \cdot \sigma \cdot L_{\text{atm}} \cdot L_{\text{マルチパス}} $$ここで、$P_r$ は受信電力、$R$ はターゲット距離、$\sigma$ はレーダー断面積 (RCS)、$L_{\text{multipath}}$ はマルチパス フェージング係数です。 ### 2.3 マルチモーダル時空間同期 マルチモーダル データ合成におけるエンジニアリング上の主要な課題は、時空間同期です。各センサー データは、統一された時間および座標系で調整される必要があります。 - **ハードウェア同期**: 各センサーは同じクロック トリガー (GPS-PPS など) を共有し、タイムスタンプ エラー $< 1\text{ms}$ - **ソフトウェア タイムスタンプ アライメント**: センサー遅延モデル (カメラ露出遅延、LiDAR スキャン サイクル) に基づく事後時間アライメント - **空間アライメント**: キャリブレーションボードまたは CAD モデルを通じて各センサーの外部パラメーター ($\mathbf{T}_{\text{camera}}^{\text{body}}$、$\mathbf{T}_{\text{lidar}}^{\text{body}}$ など) をキャリブレーションし、データを航空機座標系に統合します --- ## 3. シミュレーションプラットフォームの比較と選択 ### 3.1 メインストリーム プラットフォーム Hengping|プラットフォーム |レンダリングエンジン |マルチモーダルサポート |物理シミュレーション |オープンソース | UAV の専門分野 |該当するシナリオ | |------|----------|-----------|----------|------|----------|----------| | **AirSim** |アンリアル エンジン | RGB-D / LiDAR / IMU | PX4 SITL | ✅ | ✅ 素晴らしい |空中経路計画 | | **ガゼボ** |オウガ3D |カメラ / LiDAR / IMU | ODE/箇条書き | ✅ | ✅ リッチ |ユニバーサルロボットシミュレーション | | **フライトメア** |団結 |カメラ / LiDAR / イベント | - | ✅ | ✅ 素晴らしい | UAV高速飛行 | | **アイザック シム** |オムニバース |フルモーダル |フィズエックス |部分的 |一般 |産業用シミュレーション | | **ソーダム** |自社開発 |カメラ/LiDAR |自社開発 | ❌ | ✅ |軍用グレードの UAV シミュレーション | | **CAVS** |自己調査 |フルモード |自己調査 | ✅ | ✅ |低高度UTM研究 | | **NeuroSIM** |ニューラル レンダリング |カメラ (NeRF) | - |研究中 |探索的 |神経知覚トレーニング | ### 3.2 AirSim の詳細な分析 Microsoft AirSim は、現在最も広く使用されている UAV シミュレーション プラットフォームの 1 つです。 Unreal Engine に基づいて構築されており、写真のようにリアルな都市シーンのシミュレーション機能を提供します。 **コア アーキテクチャ**: - **AirSim プラグイン**: Unreal Engine で実行され、センサー シミュレーション、飛行物理学、API インターフェイスを処理するプラグイン - **PX4 SITL**: MAVLink プロトコルを通じて AirSim と通信し、完全な PX4 飛行制御ファームウェアのインザループ シミュレーションをサポートします。 - **RPC 通信**: 研究レベルの柔軟な制御をサポートする Python/C++ API を提供します**利点**: - フォトリアルなレンダリング、都市の峡谷のシーンがリアルです - さまざまな航空機をサポート (MultiRotor、FixedWing、Rover) - 豊富なセンサーモデル (カメラの歪み、モーションブラー、被写界深度) - 天候、照明、時間の動的な変化 **制限事項**: - Unreal Engine に依存します (大規模な商用エンジン、急峻な学習曲線) - 限定的な Linux サポート (主に Windows) - 物理シミュレーションの精度はプロのロボットシミュレータほど良くありません ### 3.3 Flightmare: 高速 UAV シミュレーション チューリッヒ工科大学によって開発された Flightmare は **高速 UAV 操縦** シナリオ向けに最適化されており、$10\text{m/s}^2+$ の加速のシミュレーションをサポートしています。これは、アグレッシブ フライト研究に最適なツールです。 フライトメアの特徴: - **モジュラー レンダリング パイプライン**: 交換可能なレンダリング エンジン (Unity/OpenGL)、大規模な都市環境をサポート - **大規模なシーンライブラリ**: 都市、森林、倉庫などのさまざまなシーンをプリセット。 - **イベント カメラ シミュレーション**: 高速操縦シーンに適した、イベントベースのセンサー (イベント カメラ) シミュレーションをサポートします。 ### 3.4 新たな方向性: ニューラル シミュレーション **UniSim** (Zhou et al.、NeurIPS 2023 / arxiv プレプリント) は、神経放射場を使用して静的な背景をモデル化し、明示的なジオメトリを使用して動的オブジェクトをモデル化し、写真のようにリアルで制御可能なセンサー データ生成を実現する、神経知覚シミュレーションの概念を最初に提案しました。 UniSim のコア パイプライン: 1. 少量の実世界データを収集します (約 20 分の運転ビデオ) 2. NeRF 静的背景モデル + 動的オブジェクト明示的モデルのトレーニング 3. NeRF でカメラの軌道を調整し、オブジェクトを追加/削除し、天気を変更し、新しいシーンを生成します 4. ニューラルレンダリング出力RGB、深度、法線ベクトル、その他の感覚データ この方法で生成されるシミュレーション データは実際のデータに非常に近く、Sim2Real の差は大幅に縮まりますが、リアルタイム パフォーマンスが依然としてボトルネックとなっています (現在の生成速度は約 0.1 FPS、非リアルタイムです)。 --- ## 4. ドメインのランダム化と Sim2Real の移行 ### 4.1 ドメインのランダム化の原則ドメイン ランダム化 (DR) の中心となるアイデアは、シミュレーションで多数の非キー属性をランダム化し、学習アルゴリズムにキー属性 (幾何学的構造、意味情報) の理解に重点を置くようにさせ、それによって現実世界に一般化することです。 **典型的なランダム化パラメータ**: |カテゴリー |パラメータ |ランダム化の範囲 | |------|------|-----------| | **外観** |テクスチャ、照明、天気 |色/強度のランダム化、動的照明 | | **ジオメトリ** |オブジェクトのサイズ、位置、向き |キー以外のオブジェクトのランダムな位置 | | **センサー** |内部パラメータ、ノイズ、外部パラメータ |カメラのフォーカス オフセット、LiDAR ノイズ レベル | | **ダイナミクス** |質量、風の乱れ、遅れ |パラメータ $\pm 20\%$ ランダム | | **背景** |シーンの複雑さ、オブジェクトの数 |ランダム干渉物体密度 | ### 4.2 オンラインドメイン適応 純粋な DR の問題は、過度のランダム化が非効率的なトレーニングにつながることです。ポリシーは、単純なシナリオでは適切にトレーニングされますが、複雑なシナリオではパフォーマンスが低下します。 **オンライン適応** (オンライン適応) メソッドは、シミュレーションと実際の移行プロセス中にシミュレーション パラメーターを継続的に更新します。 **Meta-Sim** (Kar et al.、NeurIPS 2019) は、実際のデータに対する評価パフォーマンスを最大化することを目的として、強化学習を使用して最適なドメイン ランダム化パラメータ分布を自動的に学習します。

\theta^* = \arg\max_\theta \mathbb{E}{\mathbf{s} \sim p\theta} \left[ \text{パフォーマンス}(\pi_\theta, \text{Real}) \right]

は 、 ド メ イ ン 適 応 法 を 採 用 し て 、 ト レ ー ニ ン グ プ ロ セ ス 中 に 同 時 に 実 際 の ロ ボ ッ ト の 少 量 の イ ン タ ラ ク シ ョ ン デ ー タ を 収 集 し 、 こ れ ら の デ ー タ を 使 用 し て シ ミ ュ レ ー タ パ ラ メ ー タ を 修 正 し ま す 。

p_{\text{real}} \about \alpha \cdot p_{\text{sim}} + (1-\alpha) \cdot p_{\text{real,obs}}

\text{建物} ::= \text{基礎} + \text{床}^N + \text{屋根}, \quad N \sim \text{制服}(3, 30)

You can't use 'macro parameter character #' in math mode パラメータの分布（階数、屋根の種類、ファサードの材質）を調整することで、異なるスタイルの都市建築群を生成できます。 ### 5.2 資産の品質評価 合成アセットの品質は、Sim2Real の移行の有効性に直接影響します。 **品質評価の項目**には次のものが含まれます。|寸法 |評価指標 |メソッド | |------|------|------| | **形状精度** | RMSE と LiDAR の真実 |点群登録後の量子化 | | **テクスチャの信頼性** | FID と実イメージ |フレシェ開始距離 | | **意味の一貫性** |セグメンテーションの精度 |合成画像の SegAcc | | **物理的な妥当性** |オブジェクトのサイズ分布 | GT統計との比較 | **SynthCity** (Griffiths & Boehm、2023) は、点群、画像、セマンティック アノテーションを含む 9 種類の都市資産の大規模な合成データ セットを提供し、シミュレートされた資産の品質のベンチマークとして使用できます。 --- ## 6. データ品質評価とマルチモーダル一貫性 ### 6.1 真正性の測定 シミュレーション データと実際のデータの間の分布ギャップ (ドメイン ギャップ) が、Sim2Real 移行効果の上限を決定します。定量的な評価方法には次のようなものがあります。 **FID (Fréchet Inception Distance)**: Inception-v3 を通じて画像特徴を抽出し、実際の画像特徴分布 $\mathcal{N}(\mu_r, \Sigma_r)$ とシミュレートされた画像特徴分布 $\mathcal{N}(\mu_s, \Sigma_s)$ の間のフレシェ距離を計算します。

\text{FID} = |\mu_r - \mu_s|^2 + \text{Tr}\left( \Sigma_r + \Sigma_s - 2\sqrt{\Sigma_r \Sigma_s} \right)

You can't use 'macro parameter character #' in math mode FID が低いほど、シミュレーション画像は実際の画像に近づきます。典型的なターゲット: FID $< 30$ (肉眼で区別するのは困難)。 **SSIM/PSNR**: 構造の類似性とピーク信号対雑音比、画質のピクセルごとの評価。同じシーンのレンダリング品質の比較に適しています。 **知覚距離**: VGG/ResNet フィーチャ レイヤーに基づく知覚損失。これは、ピクセル レベルの指標よりも人間の目の主観的な評価と一致します。 ### 6.2 マルチモーダルな一貫性の制約マルチモーダル シミュレーション データは、**クロスモーダル一貫性** 制約を満たす必要があります。つまり、同じシーンの RGB 画像、深度マップ、LiDAR 点群が相互に一貫している必要があり、「カメラには壁が見えているが、LiDAR は壁に当たらない」などの自己矛盾があってはなりません。 **整合性検証パイプライン**: 1. **ジオメトリの一貫性チェック**: 各 3D ポイントについて、RGB 画像内の投影された座標深度が深度マップ/LiDAR 測定と一致していることを確認します (エラー $< 1\%$) 2. **セマンティック一貫性チェック**: RGB セグメンテーションの結果と LiDAR の反射強度分類の結果は一貫している必要があります (たとえば、金属製の手すりは両方のモダリティで「硬い障害物」として分類される必要があります)。 3. **時間的一貫性チェック**: 隣接するフレーム間のオプティカル フロー/点群の動きは、物理的な動きモデル (均一速度/均一加速度の仮定) に準拠している必要があります。 一貫性制約に違反するデータはマルチモーダル融合学習の誤解を招くため、データ生成後に自動的に検出してフィルタリングする必要があります。 --- ## 7. 計画-シミュレーションの閉ループ: 強化学習トレーニング ### 7.1 シミュレーションでの強化学習トレーニング 強化学習 (RL) は、コスト関数を手動で設計する必要なく、エンドツーエンドの UAV 計画のための学習パラダイムを提供します。典型的な RL トレーニング パイプライン: 1. **シミュレーション環境の初期化**: 都市 3D モデルをロードし、ランダムな離陸点と着陸点および障害物の構成を生成します。 2. **戦略相互作用**: UAV 戦略 $\pi_\theta(a_t | s_t)$ はシミュレーション内の環境と相互作用し、軌道データ $\{s_t, a_t, r_t, s_{t+1}\}$ を収集します 3. **ポリシー更新**: PPO (Proximal Policy Optimization) または SAC (Soft Actor-Critic) アルゴリズムを使用してポリシー パラメーターを更新します 4. **ドメインのランダム化**: トレーニングの各ラウンドでシナリオ構成をランダム化し、戦略の一般化機能を向上させます。 5. **Sim2Real Transfer**: トレーニングされた戦略を実際の UAV に展開します。これには、少量の実データの微調整が必要になる場合があります (RL の転送) **主要な報酬関数の設計**:

r_t = r_{\text{進捗}} + r_{\text{安全性}} + r_{\text{効率}} + r_{\text{快適}} $$- : 目標に向けた進捗に対するプラスの報酬

衝突の場合: 衝突ペナルティ (大きなマイナス報酬)
$効率$ : 時間ペナルティ (迅速な到着を促す)
: 加速ペナルティ (急旋回の抑制)

7.2 シミュレーションから実際の移行戦略へ

ドメインのランダム化を行ったとしても、シミュレーションと実際のギャップが依然として存在する可能性があります。次の戦略により、移行の成功率を向上させることができます。

保守的な展開:

まずは実機の低速・低空での安全性検証を実施
安全が確認されてから段階的に飛行範囲を拡大する

タスク関連の機能の調整:

実際のUAVのセンサーデータの特徴分布（深度統計、エッジ密度）を分析します。
主要な機能の分布に合わせてシミュレーションパラメータを調整します

メタ学習:

MAML (Model-Agnostic Meta-Learning) を使用して、少量の実データに迅速に適応する戦略をトレーニングします。
基本ポリシーをシミュレーションでトレーニングし、実環境でに微調整します

7.3 仮想現実の閉ループのケース: アグレッシブフライト

AlphaPilot (ロッキードマーティンが後援) と SUAS Competition の自律型 UAV レースプロジェクトは、成熟したシミュレーション、トレーニング、展開の閉ループを実証しています。1. Flightmare/AirSim で DOMAIN_RANDOMIZE を使用して、ランダムな照明、風の乱れ、障害物の位置を構成します 2. PPO を使用してエンドツーエンド戦略をトレーニングし (モーター速度を直接出力)、ラップタイム、衝突ペナルティ、快適性などの報酬が得られます。 3. トレーニング戦略はシミュレーションでの走査速度に達します 4. 実際の UAV にデプロイし、オンラインアダプテーションを使用して残りの Sim2Real ギャップを補正します。 5. 主要なスキル: セーフティシールド - RL ポリシーの出力と幾何学的な計画に基づく緊急障害物回避を組み合わせることで、このポリシーはハイレベルの意思決定のみを担当します。

8. 今後の方向性とフロンティアの開拓

8.1 ニューラルシミュレーター: 学習可能な物理エンジン

従来のシミュレータは手動で設計された物理モデルに依存しており、複雑な相互作用 (流体と構造の相互作用、柔軟な物体の変形) を捉えることが困難です。 学習された物理エンジン (学習された物理エンジン) は、ニューラルネットワークを通じてデータから物理法則を学習します。

グラフネットワークシミュレーター (GNS) (Sanchez-Gonzalez et al.、ICML 2020) は、グラフニューラルネットワークを使用して粒子システムの相互作用をモデル化し、流体、剛体、および多体システムの進化規則を学習できます。 GNS を空気力学モデリングに拡張すると、データ駆動型の UAV 飛行力学シミュレーション を実現できます。

8.2 インターネット規模のデータ + 生成 AI

大規模言語モデル (LLM) と拡散モデルは、シミュレーションデータ生成に新しい可能性をもたらします。

LLM がシーンの説明を生成:「北京 CBD 夕方のピーク交差点、車 5 台、歩行者 10 人」を入力、GPT-4V は詳細なシーン構成 (位置、速度、行動パターン) を生成できます
拡散モデル生成テクスチャ: ControlNet / Stable Diffusion を使用して、建築線画に基づいてリアルなテクスチャを自動的に生成し、手動モデリングを削減します。
NeRF シーンのクローン作成: 携帯電話で 5 分間の都市ビデオを撮影し、それをナビゲーション可能な NeRF シーンに自動的に再構築し、シミュレーション環境として直接使用できます。

8.3 フェデレーテッドシミュレーション: 分散型協調マッピング将来的には、都市部の UAV クラスターが連合シミュレーションネットワークを形成する可能性があります。各 UAV は飛行中のデータを収集して都市の共有デジタルツインを更新し、他の UAV は最新のツインをダウンロードして、更新されたシミュレーション環境でトレーニングします。これにより、データのプライバシーが保護される (元の画像がローカル領域から出ない) だけでなく、知識の分散蓄積も実現されます。

9. まとめ

マルチモーダルシミュレーションデータ合成は、都市低空 UAV 計画アルゴリズムを研究から実装に移行するための重要な技術基盤です。高忠実度のセンサーシミュレーション (RGB、LiDAR、ミリ波、熱画像)、多様なシーンアセットのプログラムによる生成、および厳密なドメインランダム化戦略を通じて、大規模なトレーニングデータセットをシミュレーション環境で体系的に構築できます。

Sim2Real 移行の中心的な課題は、認識ギャップ と 動的ギャップ です。知覚のギャップは、ニューラルレンダリング (UniSim) と知覚の一貫性評価によって軽減できます。動的なギャップは、オンライン適応とメタ学習を通じて補うことができます。

ニューラルシミュレーター、学習可能な物理エンジン、生成 AI テクノロジーが成熟するにつれて、将来のシミュレーションデータ合成はより自動化され、高忠実度で低コストになるでしょう。 Ground Truth としてのシミュレーション というビジョンが徐々に実現可能になりつつあります。

参考文献

Shah, S.、Dey, D.、Lovett, C.、および Kapoor, A. (2018)。 AirSim: 自動運転車向けの高忠実度の視覚的および物理的シミュレーション。 フィールドおよびサービスロボティクス。 https://doi.org/10.1007/978-3-319-67361-5_40
Zhou、Y.、他。（2023年）。 UniSim: ニューラル閉ループセンサーシミュレーター。 CVPR (または arxiv:2308.01812、会場は要確認)。 https://doi.org/10.1109/CVPR52729.2023.00571- Kar、A.、他。（2019年）。 Meta-sim: 合成データセットの生成方法を学習します。 ICCV。 https://doi.org/10.1109/ICCV.2019.00393
Sanchez-Gonzalez、A.、他。（2020年）。グラフネットワークを使用して複雑な物理をシミュレートする方法を学習します。 ICML。 https://doi.org/10.5555/3524938.3525750
Zhang、J.、他。（2021年）。 SimBot: ロボットシミュレーターを介してビジョン言語モデルを備えた自律ロボットを実現します。 CoRL。
Du、Y.、他。（2023年）。敵対的ドメインのランダム化によるシミュレーションからポリシーを学習します。 アイクラ。 https://doi.org/10.1109/ICRA57147.2024.10610923
アントニーニ、A.、他。（2020年）。冬がやって来ます: 目に見えない環境で安全に移動する方法を学びましょう。 アイクラ。 https://doi.org/10.1109/ICRA40945.2020.9196643
Song, Y. 他（2023年）。 Diffusion-LM: 拡散モデルによる制御可能なテキスト生成。 NeurIPS。- グリフィス、S.、ベーム、J. (2023)。 SynthCity: 都市シーン用の大規模な合成点群。 ISPRS 写真測量とリモートセンシングのジャーナル。 https://doi.org/10.1016/j.isprsjprs.2023.04.015
ロイス、C.、他。（2020年）。 Flightmare: モジュール式認識機能を備えた柔軟なクワッドローターシミュレーター。 イロス。

※この記事は、都市低空ドローンルート計画に関するシリーズ記事の第5章の拡張版です。全シリーズ🎉*

都市低空 UAV ルート計画: マルチモーダル シミュレーション データ合成