
26年6月来自Astronex Robotics和南京信息工程大学的论文“EWAM: An Enhanced World Action Model for Closed-Loop Online Adaptation in Embodied Intelligence”。在开放环境中部署机器人时收集能够涵盖各种物体姿态、场景布局及执行过程中突发状况的演示数据其高昂成本始终是一大制约因素。尽管“世界动作模型”World Action Models, WAMs将未来状态预测与动作生成相结合但静态离线流程仍易出现执行层面的偏差例如碰撞、抓取落空以及由感知错误引发的“幻觉”现象。为此提出“增强型世界动作模型”Enhanced World Action Model, EWAM。这是一种基于预训练且参数冻结的 Cosmos3-Nano-Policy-DROID 骨干网络构建的闭环在线自适应架构并在零样本zero-shot任务协议下进行了评估。EWAM 在冻结的策略路径中增加四个可训练层位于DiT内部的神经经验记忆层、位于状态预测头之后的神经异常检测层、位于异常检测之后的神经策略路由层以及位于动作输出头之后的神经动作校正层。其中记忆检索功能提供与任务相关的执行上下文异常检测监控预测与实际执行之间的偏差路由机制负责选择直接执行、保守重规划或回滚恢复策略动作校正层则利用执行诊断信息对生成的动作片段进行精细调整。在 BananaInBowlTask香蕉放入碗中任务的本地测试中EWAM 不仅保持 Cosmos3-Nano-Policy-DROID 100% 的任务成功率还将单次任务的完成时间从 25.60 秒缩短至 9.27 秒路径长度从 1.81 米减至 0.83 米并将总执行故障次数从 13.5 次降低至 2.2 次。如图 1 展示基于Cosmos3-Nano–Policy-DROID构建的EWAM架构。该架构的主干包含三个主要组件(1) 用于多模态感知的视觉-语言编码器VLE(2) 用于长程任务规划的自回归AR推理器以及 (3) 用于动作生成的扩散TransformerDiT。其引入四个神经层以实现闭环在线自适应神经经验记忆层位于DiT中间层该层插入DiT的第lmem层从记忆M中检索与任务相关的经验并将其注入DiT的隐表征中。这使得扩散过程能够同时基于当前上下文和检索的历史经验进行条件化生成。神经异常检测层位于状态预测头之后该层利用预测状态 sˆ_t1、当前状态 s_t、原始动作候选序列 a^0_t:tH 以及DiT隐状态检测执行过程中的异常情况包括预测与实际不符、碰撞风险、抓取失败空抓、感知幻觉以及力控违规。神经策略路由层位于异常检测之后该层根据异常检测结果 ι_t 选择合适的执行策略直接执行、保守重规划或回滚恢复。它输出路由决策 r_t用于调节动作修正过程。神经动作修正层位于动作输出头之后该层根据异常信号 ι_t、路由决策 r_t 和记忆上下文M对原始动作输出 a^0_t:tH 进行精细调整。它在去噪阶段执行修正以确保执行过程既安全又高效。Cosmos3-Nano–Policy-DROID主干参数 phi 保持冻结仅训练四个神经层的参数 theta 和轻量级适配器adapters从而在保留预训练知识的同时实现高效自适应。神经经验记忆层Neural Experience Memory Layer被插入到 DiT 的中间层 l_mem 处。它充当扩散过程与经验记忆 M 之间的桥梁使得动作生成能够同时基于当前上下文和检索的历史经验。神经异常检测层Neural Anomaly Detection Layer被插入在状态和原始动作预测之后。在决策时刻它结合先前的预测残差、候选动作的动力学一致性以及学习到的风险评分。在执行修正后的动作后实际发生的转移残差会被写入经验记录并用于筛选和在线更新。神经策略路由层Neural Policy Routing Layer被插入在异常检测层之后。它根据异常信号 ι_t、AR 上下文 c_t 和记忆 M 来选择合适的执行策略。神经动作修正层Neural Action Correction Layer被插入在动作输出头之后。它根据异常信号 ι_t、路由决策 r_t 和记忆上下文 M 对原始动作输出 a^0_t:tH 进行精细化调整。在线学习流程如图 2 所示。EWAM 作为一个闭环系统运行其数据流如下感知 → VLE 编码原始视觉观测 o_t 和本体感觉状态 q_t 经由视觉-语言编码器Vision-Language Encoder编码生成 h_VLE。编码 → AR 推理自回归推理器Autoregressive Reasoner处理 h_VLE生成推理上下文 c_t。推理 → 具有记忆增强功能的 DiTDiT 利用记忆增强中间层位于 l_mem 6 处的神经经验记忆层处理自回归 Token并从 M 中检索相关经验。DiT 输出 → 状态/动作候选状态预测头生成 s^_t1动作头生成原始动作片段 a^0_t:tH。状态/动作候选 → 异常检测神经异常检测层结合先前的预测残差、候选动作的动力学一致性以及学习的风险评分生成异常向量 ι_t。异常检测 → 策略路由神经策略路由层根据 ι_t 选择执行策略 r_t {direct, conservative, rollback}。路由 DiT 输出 → 动作修正神经动作修正层Neural Action Correction Layer根据 ι_t、r_t 和记忆上下文将原始动作 a^0_t:tH 优化为修正后的动作 a^*_t:tH。修正后的动作 → 环境执行修正后的动作在环境中执行。执行结果 → 经验筛选执行结果由经验过滤器进行评估只有合格的轨迹才能进入下一阶段。筛选后的经验 → 记忆/参数更新合格的轨迹被写入经验记忆 M神经层会进行间歇性的参数更新。当神经异常检测层Neural Anomaly Detection Layer检测到预测误差、碰撞风险、抓取失败空抓或幻觉时该循环会触发保守的重新规划若检测到严重异常则触发回滚恢复机制。只有合格的轨迹才会被写入记忆并用于神经层参数更新。设计理念针对零样本zero-shot评估采用“记忆优先、适配器次之”的策略。在额外任务数据有限的情况下若直接利用稀疏的在线经验更新预训练的 WAM 主干网络存在“灾难性遗忘”的风险即模型可能丧失从原始数据集学到的通用能力。因此EWAM 采取了保守的适配策略即时记忆检索当新任务开始时系统首先从记忆中检索相关经验k 5 个最近邻以提供特定于任务的上下文信息。这种基于检索的适配是即时的且不会修改任何模型参数。保守的参数更新在线参数更新仅间歇性进行且仅作用于轻量级的神经层适配器而不影响已冻结的 Cosmos3-Nano–Policy-DROID 主干网络。这既保留了模型的通用零样本能力又实现了渐进式适配。经验滤波只有高质量的轨迹通过所有安全性和效率检查才会被写入记忆。这防止了错误行为污染经验数据库。消融实验结果支持了这一设计仅使用记忆12.67秒的表现优于仅进行参数更新14.67秒这表明在此场景下基于检索的适配比利用稀疏在线数据进行即时参数更新更为有效。离线准备阶段遵循基础 WAM 目标并在有模拟器标签或既定恢复目标可用时为四个神经层增加监督损失。未经筛选的在线学习可能会吸纳不安全的轨迹导致策略向错误方向更新。因此EWAM 在执行记忆写入或参数更新之前会先应用一道质量门控机制。规则设计依据。上述六个过滤阈值是针对特定场景设定的它们是为 RoboLab 容器操作任务如 BananaInBowlTask 和 BananasInBinOneMoreTask选定的体现了与任务相关的安全性夹爪力限制、效率路径长度、任务耗时及成功标准任务得分、安全得分、SPARC 指标。这些阈值并非普适性的它们蕴含了关于目标部署环境下何为高质量轨迹的领域知识。如图 3 将准入判定、拒绝分支及记忆更新路径与过滤公式并列展示从而确保直观的视觉呈现出现在方法部分。