マルチエージェント強化学習とグラフアテンションネットワーク: UAV クラスターの競合解決のためのエンドツーエンドのソリューション

前の記事では、UAV の競合解決のアルゴリズムのパノラマを整理しました。その中でも、強化学習 (特に MARL) は、50 機以上のドローンの群れにとって「最も現実的なオプション」とされています。この記事では、シングルエージェント RL の基礎から始めて、マルチエージェントシナリオの中核的な課題に入り、MADDPG、QMIX、COMA、MAPPO などの主流アルゴリズムを分析し、GAT (グラフアテンションネットワーク) が MARL にスケーラブルなトポロジ認識機能を提供し、最終的にエンドツーエンドの競合解決戦略を達成する方法に焦点を当てて、このルートに焦点を当てます。

1. シングルエージェントからマルチエージェントへ: MARL はなぜそれほど難しいのでしょうか?

1.1 単一エージェントの RL レビュー

おなじみのシングルエージェント RL から始めましょう。シングルエージェント MDP は、の 4 つの要素で記述されます。

状態値関数:
アクション値関数:
最適な戦略:

シングルエージェント RL の中核となる前提: 環境は安定している - トレーニングするエピソードの数に関係なく、環境のダイナミクスは常に変化しません。

1.2 マルチエージェントの 3 つの本質的な問題点

マルチエージェントのシナリオはこの前提を打ち破り、次の 3 つの根本的な問題を引き起こします。

① 環境の非定常性（Non-Stationarity）

エージェントがポリシーを学習しているとき、他のエージェントのポリシーも変更されます。これはつまり：$$ \mathcal{P}_i(s’\mid s, a_1,\dots,a_n) \neq \mathcal{P}_i(s’\mid s, a_1,\dots,a_n, a_1’,\dots,a_n’)

シ ン グ ル エ ー ジ ェ ン ト で は 、 現 在 の 状 態 と ア ク シ ョ ン が 与 え ら れ る と 、 次 の 状 態 の 分 布 は 固 定 さ れ ま す 。 し か し 、 マ ル チ エ ー ジ ェ ン ト の シ ナ リ オ で は 、 他 の エ ー ジ ェ ン ト が 異 な る エ ピ ソ ー ド で 異 な る ア ク シ ョ ン を 実 行 す る 可 能 性 が あ る た め 、 同 じ 状 態 と ア ク シ ョ ン の ペ ア が ま っ た く 異 な る 次 の 状 態 分 布 に 対 応 す る 可 能 性 が あ り ま す 。 こ れ は エ ク ス ペ リ エ ン ス リ プ レ イ バ ッ フ ァ の 失 敗 に 直 接 つ な が り ま す 。 保 存 さ れ た エ ク ス ペ リ エ ン ス デ ー タ は 「 古 い 」 戦 略 か ら の も の で あ り 、 そ れ ら を 使 用 し て ト レ ー ニ ン グ す る と 戦 略 が 崩 壊 し ま す 。 ② 単 位 の 割 り 当 て エ ー ジ ェ ン ト が 共 同 で チ ー ム 報 酬 を 受 け 取 っ た 場 合 、 こ の 報 酬 を 各 エ ー ジ ェ ン ト の 貢 献 に 帰 す 方 法 は 何 で す か

r_t = f(\mathbf{s}_t, \mathbf{a}t, \mathbf{s}{t+1})

You can't use 'macro parameter character #' in math mode たとえば、複数の UAV が協力して障害物を回避します。各エージェントはいくら貢献しましたか?少数のエージェントだけが報酬を得る場合、他のエージェントは学習を停止します。 **③ 共同行動空間指数爆発** $n$ 個の UAV があり、それぞれ $|\mathcal{A}|$ アクション オプションがあり、共同アクション スペース $|\mathcal{A}|^n$ は $n$ とともに指数関数的に増加します。結合空間における貪欲な探索の範囲はゼロに近づきます。 ### 1.3 MARL アルゴリズムの分類 上記の困難に対応して、学術コミュニティは 3 つの主要なルートを開発しました。 |ルート |代表的なアルゴリズム |核となるアイデア |代表論文 | |------|----------|----------|----------| | **自主学習 (IL)** | IQL、DQN |それぞれが自分自身のことを学び、他人の影響を無視します。タン、1993年 | | **集中トレーニング + 分散実行 (CTDE)** | MADDPG、QMIX、MAPPO |トレーニング中にグローバル情報を使用し、実行中にローカル観察を使用します。 Lowe 他、2017 | | **完全に分散化** |コーマ, VDND |純粋にローカルな戦略であり、一元化されたトレーニングはありません |フェルスターら、2018 |> **CTDE は、UAV 競合解決の現在の主流パラダイム**です。CTDE は、トレーニング中にグローバル情報を使用して学習効率を向上させるだけでなく、実行中に限られた通信の下でリアルタイムの意思決定機能を維持することもできます。 --- ## 2. CTDE フレームワーク: トレーニングには神の視点を使用し、実行にはローカル観察を使用します ### 2.1 集中批評家の設計哲学 CTDE の核となる洞察は次のとおりです。 **トレーニング フェーズと実行フェーズでは、利用可能な情報が異なる可能性があります**。 ``` ┌─────────────────────────────────────────────────────────┐ │ 中心化训练（Centralized Training） │ │ Critic(s₁,...,sₙ, a₁,...,aₙ) → Q(s,a) │ │ ✅ 可访问全局状态 & 所有智能体的动作 │ │ ✅ 环境是"平稳的"（给定全局状态-动作对） │ │ │ │ 去中心化执行（Decentralized Execution） │ │ πᵢ(oᵢ → aᵢ) │ │ ✅ 只依赖本地观测 oᵢ │ │ ✅ 通信失败时仍可运行 │ └─────────────────────────────────────────────────────────┘ ``` ### 2.2 MADDPG: 連続アクション空間における CTDE のパイオニア **MADDPG (マルチエージェント DDPG)** は、2017 年に OpenAI によって提案され、連続アクション空間マルチエージェント深層強化学習におけるマイルストーンです。 **コアフォーミュラ:** 各エージェント $i$ は、アクターと批評家の構造を維持します。

\nabla_{\theta_i} J(\theta_i) = \mathbb{E}{\mathbf{s} \sim \mathcal{D}}\left[ \nabla{\theta_i} \log \pi_i(a_i \mid o_i) \cdot Q_i^\pi(\mathbf{s}, a_1, \dots, a_n) \Big|_{a_i = \pi_i(o_i)} \右]

You can't use 'macro parameter character #' in math mode 主な違い: $Q_i^\pi$ への入力は、ローカルな観測値ではなく、グローバル状態 $\mathbf{s}$ とすべてのエージェントの共同アクション $\mathbf{a}$ です。 ```python import torch import torch.nn as nn import torch.optim as optim import numpy as np from collections import deque import random # ============================================================ # MADDPG 核心实现（用于 UAV 冲突消解场景） # ============================================================ class ReplayBuffer: """共享经验回放池（所有智能体的经验统一存储）""" def __init__(self, capacity=100000): self.buffer = deque(maxlen=capacity) def push(self, state, actions, reward, next_state, done): self.buffer.append((state, actions, reward, next_state, done)) def sample(self, batch_size): batch = random.sample(self.buffer, batch_size) states, actions, rewards, next_states, dones = zip(*batch) return (np.array(states), np.array(actions), np.array(rewards), np.array(next_states), np.array(dones)) def __len__(self): return len(self.buffer) class Actor(nn.Module): """演员网络：本地观测 → 动作（去中心化执行）""" def __init__(self, obs_dim, action_dim, hidden_dim=64): super().__init__() self.net = nn.Sequential( nn.Linear(obs_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, hidden_dim), nn.ReLU(), nn.Tanh(), # 连续动作输出（速度变化量） nn.Linear(hidden_dim, action_dim), nn.Tanh() # 动作限幅 [-1, 1] ) def forward(self, obs): return self.net(obs) class Critic(nn.Module): """评论家网络：全局状态 + 联合动作 → Q值（中心化训练）""" def __init__(self, total_obs_dim, total_action_dim, n_agents, hidden_dim=64): super().__init__() # 输入：全局状态 + 所有智能体的动作拼接 input_dim = total_obs_dim + n_agents * total_action_dim self.net = nn.Sequential( nn.Linear(input_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, 1) # 输出单个 Q 值 ) def forward(self, states, all_actions): """ states: (batch, total_obs_dim) 全局状态 all_actions: (batch, n_agents * action_dim) 所有智能体的动作 """ x = torch.cat([states, all_actions], dim=1) return self.net(x) class MADDPGAgent: """MADDPG 智能体""" def __init__(self, obs_dim, action_dim, n_agents, agent_id, lr_actor=1e-3, lr_critic=1e-3, gamma=0.95, tau=0.01): self.agent_id = agent_id self.action_dim = action_dim self.n_agents = n_agents self.gamma = gamma self.tau = tau # 演员网络（本地策略） self.actor = Actor(obs_dim, action_dim) self.actor_target = Actor(obs_dim, action_dim) self.actor_optimizer = optim.Adam(self.actor.parameters(), lr=lr_actor) # 评论家网络（全局 Q） total_obs = obs_dim * n_agents total_act = action_dim * n_agents self.critic = Critic(total_obs, total_act, n_agents) self.critic_target = Critic(total_obs, total_act, n_agents) self.critic_optimizer = optim.Adam(self.critic.parameters(), lr=lr_critic) # 目标网络初始化 self.hard_update(self.actor_target, self.actor) self.hard_update(self.critic_target, self.critic) def hard_update(self, target, source): """硬更新（一次性复制）""" target.load_state_dict(source.state_dict()) def soft_update(self, target, source): """软更新（指数滑动平均）""" for tp, sp in zip(target.parameters(), source.parameters()): tp.data.copy_(self.tau * sp.data + (1 - self.tau) * tp.data) def select_action(self, obs, noise=0.1): """选择动作（探索时加噪声）""" obs_t = torch.FloatTensor(obs).unsqueeze(0) action = self.actor(obs_t).squeeze(0).numpy() action += noise * np.random.randn(self.action_dim) return np.clip(action, -1, 1) def update(self, agents, replay_buffer, batch): """单步更新""" states, all_actions, rewards, next_states, dones = batch # ----- Critic 更新 ----- # 目标动作用目标演员网络生成 next_actions = [] for agent_id, agent in enumerate(agents): next_obs = torch.FloatTensor(next_states[:, agent_id * 4:(agent_id+1)*4]) # 假设 obs 维4 next_actions.append(agent.actor_target(next_obs)) next_actions_cat = torch.cat(next_actions, dim=1) # 目标 Q 值 target_Q = self.critic_target( torch.FloatTensor(next_states), next_actions_cat.detach() ) expected_Q = self.critic( torch.FloatTensor(states), torch.FloatTensor(all_actions) ) critic_loss = nn.MSELoss()(expected_Q, target_Q.detach()) self.critic_optimizer.zero_grad() critic_loss.backward() self.critic_optimizer.step() # ----- Actor 更新 ----- # 当前智能体的动作（其他智能体动作用 replay buffer 中的值） current_obs = torch.FloatTensor(states[:, self.agent_id*4:(self.agent_id+1)*4]) current_action = self.actor(current_obs) # 构造完整的动作向量（当前智能体用当前策略，其他用历史动作） actions_fixed = torch.FloatTensor(all_actions).clone() actions_fixed[:, self.agent_id*self.action_dim:(self.agent_id+1)*self.action_dim] = current_action actor_loss = -self.critic( torch.FloatTensor(states), actions_fixed ).mean() self.actor_optimizer.zero_grad() actor_loss.backward() self.actor_optimizer.step() # ----- 目标网络软更新 ----- self.soft_update(self.actor_target, self.actor) self.soft_update(self.critic_target, self.critic) return actor_loss.item(), critic_loss.item() ``` ### 2.3 QMIX: クレジット割り当てを解決するための値の分解 MADDPG は連続アクション空間の問題を解決しますが、Critic はグローバル状態 $\mathbf{s}$ を必要とします。実際の UAV シナリオでは、セントラル ノードはグローバル状態を取得できない可能性があります。 **QMIX** (Queensland Institute、2018) の中核となる革新は、**結合 Q 値を個々のエージェントの周辺 Q 値に分解する**です。$$ Q_{tot}(\boldsymbol{\tau}, \mathbf{u}) = g_\theta(\boldsymbol{\tau}, \mathbf{u}; \boldsymbol{\phi}_1, \dots, \boldsymbol{\phi}_n)

がエージェントの行動観察軌跡である場合、は次を満たす 単調混合ネットワークです。

単調性制約は重要な特性を保証します。 分散実行中、各エージェントのの独立した貪欲な最大化は、 のグローバルな最大化と同等です。

class QMIXMixingNetwork(nn.Module):
    """
    单调混合网络：将各智能体的 Q_i 混合为全局 Q_tot
    关键约束：所有权值非负（保证单调性）
    """
    def __init__(self, n_agents, embed_dim=64):
        super().__init__()
        # Hyper-network 生成混合网络的权值
        self.hyper_w1 = nn.Sequential(
            nn.Linear(n_agents, embed_dim),
            nn.ReLU(),
            nn.Linear(embed_dim, n_agents * embed_dim),  # 输出 (n_agents × embed_dim) 权值
        )
        self.hyper_b1 = nn.Linear(n_agents, embed_dim)
        self.hyper_w2 = nn.Sequential(
            nn.Linear(embed_dim, embed_dim),
            nn.ReLU(),
            nn.Linear(embed_dim, embed_dim)
        )
        self.hyper_b2 = nn.Linear(embed_dim, 1)
    
    def forward(self, q_values, state):
        """
        q_values: (batch, n_agents) 各智能体的 Q 值
        state: (batch, state_dim) 全局状态（用于生成 hyper-network 输入）
        """
        batch_size = q_values.size(0)
        
        # 第一层：W₁ * Q + b₁
        w1 = torch.abs(self.hyper_w1(state))          # (batch, n_agents * embed_dim)
        w1 = w1.view(batch_size, q_values.size(1), -1)  # (batch, n_agents, embed_dim)
        b1 = self.hyper_b1(state).unsqueeze(1)       # (batch, 1, embed_dim)
        
        q_hidden = torch.relu(torch.bmm(q_values.unsqueeze(1), w1) + b1)  # (batch, 1, embed_dim)
        
        # 第二层：W₂ * h + b₂
        w2 = torch.abs(self.hyper_w2(q_hidden.squeeze(1)))  # (batch, embed_dim, embed_dim)
        b2 = self.hyper_b2(q_hidden.squeeze(1)).unsqueeze(1)  # (batch, 1, 1)
        
        q_tot = torch.bmm(q_hidden, w2.unsqueeze(1)) + b2  # (batch, 1, 1)
        return q_tot.squeeze(-1)  # (batch,)


class QMIXAgent:
    """QMIX 算法"""
    def __init__(self, obs_dim, action_dim, n_agents, agent_id):
        self.agent_id = agent_id
        self.action_dim = action_dim
        
        # 每个智能体的 RNN（处理动作-观测历史）
        self.rnn = nn.GRUCell(obs_dim + action_dim, obs_dim)
        # Q 网络
        self.q_net = nn.Sequential(
            nn.Linear(obs_dim, 64),
            nn.ReLU(),
            nn.Linear(64, 64),
            nn.ReLU(),
            nn.Linear(64, action_dim)
        )
        
        self.target_rnn = nn.GRUCell(obs_dim + action_dim, obs_dim)
        self.target_q_net = nn.Sequential(
            nn.Linear(obs_dim, 64),
            nn.ReLU(),
            nn.Linear(64, 64),
            nn.ReLU(),
            nn.Linear(64, action_dim)
        )
        self.hard_update()
    
    def hard_update(self):
        self.target_rnn.load_state_dict(self.rnn.state_dict())
        self.target_q_net.load_state_dict(self.q_net.state_dict())
    
    def get_q_values(self, hidden, obs, last_action):
        """给定 (hidden, obs, last_action) 输出 Q(s,a)"""
        rnn_input = torch.cat([obs, last_action], dim=1)
        new_hidden = self.rnn(rnn_input, hidden)
        q_values = self.q_net(new_hidden)
        return q_values, new_hidden
    
    def select_action_epsilon_greedy(self, q_values, epsilon):
        """ε-贪心策略"""
        if random.random() < epsilon:
            return random.randint(0, self.action_dim - 1)
        return q_values.argmax(dim=1).item()


def train_qmix():
    """QMIX 训练循环（伪代码）"""
    n_agents = 8
    n_episodes = 50000
    
    agents = [QMIXAgent(obs_dim=12, action_dim=5, n_agents=n_agents, agent_id=i)
              for i in range(n_agents)]
    mixer = QMIXMixingNetwork(n_agents)
    
    optimizers = [optim.Adam(agent.q_net.parameters(), lr=2e-4) for agent in agents]
    mixer_optimizer = optim.Adam(mixer.parameters(), lr=2e-4)
    
    replay = ReplayBuffer(capacity=100000)
    
    for ep in range(n_episodes):
        # 环境交互
        states = env.reset()  # (n_agents, obs_dim)
        hidden = [torch.zeros(1, 12) for _ in range(n_agents)]
        last_actions = [torch.zeros(1, 5) for _ in range(n_agents)]
        episode_reward = 0
        
        while not done:
            actions = []
            for i, agent in enumerate(agents):
                q_vals, hidden[i] = agent.get_q_values(hidden[i],
                    torch.FloatTensor(states[i]).unsqueeze(0),
                    last_actions[i])
                a = agent.select_action_epsilon_greedy(q_vals.squeeze(0), epsilon=0.1)
                actions.append(a)
                last_actions[i] = torch.zeros(1, 5)
                last_actions[i][0, a] = 1.0
            
            next_states, rewards, done = env.step(actions)
            replay.push(states, last_actions, rewards, next_states, done)
            states = next_states
            episode_reward += sum(rewards)
        
        # 学习
        if len(replay) > 1024:
            batch = replay.sample(32)
            # QMIX 损失计算 ...
            # 单调混合 + 中心化训练 ...

2.4 MAPPO: 高度に並行したシナリオにおける政策勾配の勝利

MAPPO (マルチエージェント PPO) は、PPO アルゴリズムをマルチエージェントシナリオに拡張し、近年の UAV クラスタータスクで良好なパフォーマンスを示しています (2022 年から 2024 年までの複数の主要なカンファレンス論文)。

PPO の主な利点: 信頼領域の制約により、トレーニングの安定性が確保され、DDPG シリーズのハイパーパラメーターによる災害が回避されます。

PPO -クリップターゲット:

Extra \left or missing \right\mathcal{L}^{CLIP}(\theta) = \mathbb{E}_t\left[ \分\左( r_t(\theta) \hat{A}_t, \text{クリップ}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \右) \右]

は確率比、は GAE (Generalized Advantage Estimation) です。UAV 競合解決における MAPPO の一般的な構成:

パラメータ	推奨値	説明
クリップ率	0.2	PPO のデフォルト
ホライゾン	128–256	エポックごとのロールアウトステップの数
PPO エポック	2–4	バッチごとに繰り返される更新の数
GAE	0.95	優勢推定のバイアス分散バランス
隠れ層の寸法	64–128	UAV シナリオには十分
正規化	OBS + 報酬の正規化	鍵！マルチエージェントのコンバージェンスに大きな影響

3. GAT: MARL に「誰に従うべきか」を学ばせる

3.1 なぜ MARL にはグラフ構造が必要なのでしょうか?

UAV クラスターでは、すべてのエージェントが同じように重要であるわけではありません。競合の解決を例に挙げます。

UAV が私に衝突しようとしている → 重大な懸念
UAV は視界の外にある → 無視しても問題ありません
動く障害物に近づく → 動的な注意が必要

ただし、従来の MARL (MADDPG、QMIX など) は、完全に接続されたトポロジ ( 通信) または固定トポロジ (リング、最近傍など) のいずれかで、すべての近隣ノードを平等に扱います。

GAT の導入により、次の 2 つの主要な問題が解決されます。

適応近隣重み: アテンションメカニズムを通じて、現在の決定にとってどの近隣がより重要であるかを学習します。
拡張性: ドローンの数に応じて増加せず、動的なトポロジーをサポートします

3.2 GAT の基本原則

GAT は、各層のノードの特徴に対して 近隣集約 を実行し、重みはアテンションメカニズムによって動的に計算されます。$$ \alpha_{ij} = \frac{\exp\left(\text{LeakyReLU}\left(\mathbf{a}^\top[\mathbf{W}\mathbf{h}_i \Vert \mathbf{W}\mathbf{h}j]\right)\right)} {\sum{k \in \mathcal{N}_i} \exp\left(\text{LeakyReLU}\left(\mathbf{a}^\top[\mathbf{W}\mathbf{h}_i \Vert \mathbf{W}\mathbf{h}_k]\right)\right)}

\mathbf{h}i’ = \sigma\left(\sum{j \in \mathcal{N}i} \alpha{ij} \mathbf{W}\mathbf{h}_j\right)

\pi_{安全な}(s) = \text{Proj}{\mathcal{A}{安全な}(s)} \pi(s)

You can't use 'macro parameter character #' in math mode ここで、$\mathcal{A}_{safe}(s)$ は、状態 $s$ での安全なアクションのセット (衝突回避制約を満たす速度空間など) です。これは、報酬関数で衝突にペナルティを与えるよりも信頼性が高く、ハード制約はソフト報酬よりも優先されます。 --- ## 6. 概要: GAT-MARL の技術概要 シングルエージェント RL からマルチエージェント強化学習、グラフ アテンション強化に至るまで、**スケーラブルなエンドツーエンドの競合解決** ルートを採用しました。|レベル |テクノロジー |問題が解決しました | |------|------|----------| | **学習フレームワーク** | CTDE (集中トレーニング + 分散実行) |環境の非定常性 | | **アルゴリズム** | MADDPG / MAPPO / QMIX |クレジット割り当て + 継続的/個別アクション | | **トポロジ モデリング** |ガット |適応近隣重み + スケーラビリティ | | **安全上の制約** |安全層 / ハード制約 |衝突保証 (対ソフトリワード) | | **トレーニング パラダイム** | PPO (サイドステップ/TRPO) |トレーニングの安定性 | 今後の最も注目すべき方向性: - **基礎モデル + UAV**: タスクレベルの命令の理解には大規模言語モデルを使用し、低レベルの制御には MARL を使用します - **実際の飛行検証**: Sim から Real への移行は依然として主要な課題です - **通信制限シナリオ**: 通信または通信遅延がない場合の GAT の堅牢性 --- **参考文献:**1. Lowe、R.、他。 （2017年）。 *協力競争環境が混在するマルチエージェントアクター批評家 (MADDPG)。 * 神経情報処理システムに関する会議 (NeurIPS)。 2. Foerster、J.、他。 （2018年）。 *反事実的なマルチエージェント ポリシー勾配 (COMA)。* AAAI 人工知能会議。 3. ラシッド、T.、他。 （2018年）。 *QMIX: 深いマルチエージェント強化学習のための単調値関数因数分解。* 機械学習に関する国際会議 (ICML)。 4. Veličković、P.、他。 （2018年）。 *グラフ アテンション ネットワーク。* 学習表現に関する国際会議 (ICLR)。 5. Everett、M.、他。 （2021年）。 *深層強化学習による密集した交通における衝突回避* IEEE ロボティクスとオートメーションに関する国際会議 (ICRA)。 6. Hu、E.J.、他。 （2021年）。 *LoRA: 大規模言語モデルの低ランク適応。* 学習表現に関する国際会議 (ICLR)。 7. ファン、T.、他。 （2020年）。 *ディストリクト複雑なシナリオでのナビゲーションのための深層強化学習によるマルチロボット衝突回避を評価しました。* 国際ロボット研究ジャーナル (IJRR)。 8. マオ、H.、他。 （2020年）。 *二重注意深層強化学習によるマルチエージェント コミュニケーションの学習。* 自律エージェントとマルチエージェント システム (JAAMAS)。 9. Yu、L.、他。 (2025年)。 *空中回廊における複数の無人航空機の調整のためのハイブリッド変圧器ベースのマルチエージェント強化学習。* モバイル コンピューティング (TMC) に関する IEEE トランザクション。 10. Zhu、Y.、他。 (2025年)。 *タスク エンティティ トランスフォーマーと値分解トレーニングを使用したマルチタスク マルチエージェント強化学習。* IEEE Transactions on Automation Science and Engineering (TASE)。 11. Jiang、C.、他。 （2024年）。 *マルチロボットフォーメーションナビゲーションのための信念伝播による分散サンプリングベースのモデル予測制御。* IEEE Robotics and Automation Letters (RA-L)。 12. Goeckner、A.、他l. （2024年）。 *マルチロボット システムの回復力のある分散調整のためのグラフ ニューラル ネットワーク ベースのマルチエージェント強化学習。* インテリジェント ロボットおよびシステムに関する IEEE/RSJ 国際会議 (IROS)。

マルチエージェント強化学習とグラフ アテンション ネットワーク: UAV クラスターの競合解決のためのエンドツーエンドのソリューション