学习协调偏好用于多目标多智能体强化学习 学习协调偏好用于多目标多智能体强化学习来源arXiv:2606.14693v1代码仓库PengxinWang/PrefMARL 概述本文提出协调偏好多智能体策略优化PCMA一种用于多目标多智能体强化学习MOMARL的新型框架。PCMA使智能体能够学习协调的、智能体特定的偏好从而诱导互补的权衡提高团队性能并减少行为冲突。该方法在**集中式训练-分布式执行CTDE**范式下运行并在粒子世界、无人机、 locomotion、星际争霸和真实世界交通控制环境中得到验证。 问题形式化与动机核心挑战在MOMARL中冲突不仅出现在目标之间还出现在具有不同观测、角色和优先级权重的智能体之间。使用固定共享偏好向量的标准标量化强制同质行为导致竞争或效率低下。关键洞察对多样协调偏好进行策略 conditioning 允许智能体占据帕累托前沿的不同区域实现角色专业化更好的团队协调。形式化合作MOMARL被框架化为团队最优均衡问题找到偏好配置p \mathbf{p}p及其诱导的均衡θ ∗ ( p ) \theta^*(\mathbf{p})θ∗(p)以最大化团队目标J t e a m J_{\mathrm{team}}Jteam​。 理论基础 一阶团队改进与偏好多样性团队改进矩阵B i , k : ( ∇ θ i J t e a m ( θ ) ) ⊤ ∇ θ i J i , k ( θ ) B_{i,k} : (\nabla_{\theta_i} J_{\mathrm{team}}(\theta))^\top \nabla_{\theta_i} J_{i,k}(\theta)Bi,k​:(∇θi​​Jteam​(θ))⊤∇θi​​Ji,k​(θ)衡量智能体i ii的第k kk个目标对团队改进的贡献。假设 4.1偏好-改进对齐中心偏好p ~ i \tilde{p}_ip~​i​和改进方向b ~ i \tilde{b}_ib~i​满足p ~ i ⊤ b ~ i ∥ p ~ i ∥ 2 2 ≥ κ 0 \frac{\tilde{p}_i^\top \tilde{b}_i}{\|\tilde{p}_i\|_2^2} \geq \kappa 0∥p~​i​∥22​p~​i⊤​b~i​​≥κ0。定理 4.2团队改进分解J_{\mathrm{team}}(\theta_{\mathrm{new}}) - J_{\mathrm{team}}(\theta) \geq \eta \sum_{i1}^N \|\nabla_{\theta_i} J_{\mathrm{team}}(\theta)\|_2^2 \eta N (\bar{p}^\top \bar{b} \kappa \mathcal{D}_p)其中D p 1 2 N 2 ∑ i , j ∥ p i − p j ∥ 2 2 \mathcal{D}_p \frac{1}{2N^2}\sum_{i,j}\|p_i - p_j\|_2^2Dp​2N21​∑i,j​∥pi​−pj​∥22​是成对偏好距离。多样性D p \mathcal{D}_pDp​直接提升一阶团队改进。 均衡追踪引理 4.3在非奇异雅可比条件下局部纳什均衡θ ∗ ( p ) \theta^*(\mathbf{p})θ∗(p)随p \mathbf{p}p连续变化。定理 4.6均衡追踪在缓慢偏好更新下追踪误差e t ∥ θ t − θ ( p t ) ∥ e_t \|\theta^t - \theta(\mathbf{p}^t)\|et​∥θt−θ(pt)∥满足e_{t1} \leq \rho e_t C \|\mathbf{p}^{t1} - \mathbf{p}^t\| \implies \limsup_{t\to\infty} e_t \leq \frac{C}{1-\rho}\delta保证当偏好配置缓慢变化时稳定收敛。⚙️ 方法PCMA算法 架构与训练范式CTDE框架集中式批评家训练分布式演员执行。偏好条件演员偏好p i p_ipi​拼接为局部观测o i o_ioi​的输入。双批评家设计集中式团队批评家估计A t e a m A^{\mathrm{team}}Ateam个体向量批评家估计A i i n d \mathbf{A}_i^{\mathrm{ind}}Aiind​ 损失函数批评家损失\mathcal{L}_{\mathrm{critic}} \mathbb{E}_\tau \left[ (V^{\mathrm{team}}(\mathbf{o}) - R^{\mathrm{team}})^2 \sum_{i1}^N \|\mathbf{V}^i(o_i) - \mathbf{R}^i\|_2^2 \right]演员更新基于PPO\mathcal{L}_{\mathrm{actor}}(\theta) \mathcal{L}_{\mathrm{PPO}}\left(\pi_\theta(\cdot|o_i, p_i), A_{U_i}\right), \quad A_{U_i} A^{\mathrm{team}} \lambda p_i^\top \mathbf{A}_i^{\mathrm{ind}} 协调偏好规划每个智能体学习随机规划器输出Dirichlet参数α i ϕ ψ ( o i ) \alpha_i \phi_\psi(o_i)αi​ϕψ​(oi​)采样p i ∼ D i r ( α i ) p_i \sim \mathrm{Dir}(\alpha_i)pi​∼Dir(αi​)。多样性正则化通过D α E [ D p ] \mathcal{D}_\alpha \mathbb{E}[\mathcal{D}_p]Dα​E[Dp​]鼓励不同偏好。规划器损失\mathcal{L}_{\mathrm{plan}}(\psi) \mathcal{L}_{\mathrm{PPO}}\left(\phi_\psi(\cdot|o_i), A^{\mathrm{team}}\right) - \lambda_1 \mathcal{D}_\alpha 实验验证 环境与设置类别环境奖励结构粒子世界合作扩散、安全捕食者-猎物稀疏团队 向量个体奖励无人机控制捕获、护航稀疏团队 向量个体奖励移动控制MOMAwalker包裹进度 稳定性惩罚星际争霸SMAC3m, 2s3z, 8m团队胜利 [伤害造成, -伤害承受]真实世界OpenCDA-MARLCARLA效率 安全/交互目标 性能摘要PCMA始终优于或持平基线MADDPG、IPPO、MAPPO在成功率和奖励指标上。示例结果环境指标MADDPGIPPOMAPPOPCMA本文合作扩散成功率0.380.270.801.00安全捕食者-猎物成功率0.680.600.910.96SMAC-2s3z成功率0.630.930.971.00MOMAwalker前进距离75.046.6970.5293.64CARLA交通控制OpenCDA-MARL设置骨干效用↑成功率(%)↑碰撞率(%)↓吞吐量↑合作SAC-4776.968.631.41692合作MAPPO-16793.355.442.51417合作PCMA-2072.969.630.41716竞争PCMA-2877.168.023.31192消融与行为分析移除多样性正则化λ 1 0 \lambda_10λ1​0或使用随机/相同偏好会降低性能。最优λ 1 ∈ [ 0.02 , 0.10 ] \lambda_1 \in [0.02, 0.10]λ1​∈[0.02,0.10]和λ 2 ∈ [ 0.5 , 1.0 ] \lambda_2 \in [0.5, 1.0]λ2​∈[0.5,1.0]。在SMAC中智能体自然分裂为激进攻击者 vs 前线防御者通过伤害造成 vs 伤害承受衡量。️ 论文中的图片编号图片路径描述1figures/method/algo_flowchart.png算法流程图2figures/exp_section1/spread_pref_evolution.png扩散偏好演化3figures/exp_section1/pf_spread.png扩散帕累托前沿4figures/exp_section1/predator_pref.png捕食者偏好5figures/exp_section1/pf_predator_prey.png捕食者-猎物帕累托前沿6figures/exp_section1/8m_role.png8m角色分配7figures/exp_section1/2s3z_role.png2s3z角色分配8figures/mompe/spread/success_rate.png扩散成功率9figures/mompe/predator_prey/success_rate.png捕食者-猎物成功率10figures/momaland/catch/success_rate.png捕获成功率11figures/momaland/escort/mr.png护航移动奖励12figures/momaland/walker/forward_distance.png移动前进距离13figures/smac/3m.png3m结果14figures/smac/2s3z.png2s3z结果15figures/smac/8m.png8m结果16figures/ablation/lambda1.pngλ 1 \lambda_1λ1​消融17figures/ablation/lambda2.pngλ 2 \lambda_2λ2​消融18figures/ablation/pref_coord.png偏好协调消融19figures/envs/illustration/catch.png捕获环境示意图20figures/envs/illustration/multiwalker.png多行走者环境21figures/envs/illustration/predatorprey.png捕食者-猎物环境22figures/envs/illustration/smac.pngSMAC环境图片URL基础路径所有图片的基础URL为https://arxiv.org/html/2606.14693v1/完整URL示例https://arxiv.org/html/2606.14693v1/figures/method/algo_flowchart.pnghttps://arxiv.org/html/2606.14693v1/figures/exp_section1/spread_pref_evolution.pnghttps://arxiv.org/html/2606.14693v1/figures/smac/2s3z.png 相关资源与链接资源URL论文代码仓库https://github.com/PengxinWang/PrefMARLarXiv论文页面https://arxiv.org/abs/2606.14693arXiv HTML版本https://arxiv.org/html/2606.14693v1arXiv PDF版本https://arxiv.org/pdf/2606.14693v1.pdfarXiv LaTeX源https://arxiv.org/e-print/2606.14693arXiv反馈https://github.com/arXiv/html_feedback/issuesLaTeXML项目https://github.com/brucemiller/LaTeXML 专家分析核心贡献团队最优均衡形式化将合作MOMARL框架化为寻找使诱导均衡最大化团队目标的偏好配置。理论保证证明偏好多样性带来团队性能的一阶改进并在缓慢偏好更新下建立均衡追踪界限。PCMA算法提出基于PPO的实用方法在CTDE下具有随机偏好规划器和多样性正则化学习。经验验证在粒子世界、无人机、移动、星际争霸和CARLA交通控制基准中优于MADDPG、IPPO和MAPPO。关键洞察偏好多样性是团队改进的关键理论证明表明偏好距离D p \mathcal{D}_pDp​直接提升一阶团队改进。均衡追踪稳定性缓慢偏好更新允许策略稳定追踪移动均衡而不振荡。角色自动专业化在SMAC实验中智能体自动分裂为攻击者和防御者角色无需人工指定。应用前景自动驾驶多车辆协调如一个优先安全一个优先效率无人机编队多无人机任务分配与协调游戏AI多智能体角色专业化与团队协作交通控制真实世界路口车辆协调 实验步骤与参数训练参数参考优化器Adam学习率3 × 10 − 4 3 \times 10^{-4}3×10−4折扣因子γ \gammaγ0.99PPO裁剪参数0.2批次大小2048训练轮数5000根据环境调整偏好规划参数Dirichlet初始参数α 0 1.0 \alpha_0 1.0α0​1.0多样性权重λ 1 \lambda_1λ1​[ 0.02 , 0.10 ] [0.02, 0.10][0.02,0.10]通过消融实验确定偏好平滑权重λ 2 \lambda_2λ2​[ 0.5 , 1.0 ] [0.5, 1.0][0.5,1.0]评估协议每个实验运行10次随机种子报告均值 ± 标准差使用滑动窗口平均评估稳定性