专访大晓机器人王飞:世界模型是“进化型基础设施” 文 | 智能相对论作者 | 叶远风世界模型早已走出实验室成为各家公司发布会上的高频词不管是机器人公司还是与具身智能相关的上下游机构都开始频繁谈论世界模型。热闹之下很少有人回答几个最核心的问题——世界模型对于机器人的核心价值到底是什么拼接式方案和原生架构的差距到底是体验好坏还是代际差别规模化落地的拐点究竟要等到技术完全成熟还是可以提前进场近日大晓机器人发布开悟世界模型技术报告并披露其在多个具身智能基准测试中的夺冠表现。相比单纯讨论模型成绩更值得追问的是这些成绩背后大晓到底选择了一条怎样的世界模型路线带着这些问题“智能相对论”专访了大晓机器人开悟世界模型研发负责人王飞。在他的判断里世界模型远不止演示层面的技术炫技其本质定位更偏向支撑能力持续迭代的进化型基础设施。整条赛道的竞争已经从单点功能的比拼转向进化闭环的体系化较量。大晓机器人开悟世界模型研发负责人王飞能力边界是“原生”的技术分水岭过去一年“原生”成了世界模型领域最泛滥的词汇几乎所有厂商都在强调自身架构的原生属性很多方案本质只是视频生成模块加控制模块的简单拼接换个包装就敢冠以原生之名。王飞对此的判断逻辑锚定在最终可实现的能力边界上。他提到行业内常用的拼接式方案大多是先搭建视频生成模块再外挂一套控制模块两道工序像流水线一样机械耦合模块之间的信息传递存在显著损耗就像传统汽车生产里的冲压焊接涂装总装流水线每一道工序都要独立完成再转交下一环中间的信息折损无法避免。大晓开悟世界模型的原生一体化架构形象地说更接近“一体化压铸”的思路将理解、生成、预测三类任务的目标放在统一架构内做全局最优求解底层表达保持一致共享同一套世界状态表征模块间的信息流动损耗可以降到最低。在王飞看来真正的原生世界模型最终要指向物理AI的能力水平。为了说明这种差异他将世界模型能力从低到高拆成了五个层级。第一层对应世界生成负责构建视频或文本形式的世界表象。第二层对应物理认知可将力、摩擦力、速度、质量等物理变量做显式表达。第三层对应交互反馈可控制本体与世界产生交互并明确判定任务的成败状态。第四层对应自我进化具备持续学习与策略优化的能力。第五层对应多机协同可实现多智能体之间的协作作业。当前行业内绝大多数世界模型能力边界基本停留在前两个层级部分团队的探索触及第三层交互能力但完整的反馈机制和进化能力依然是少有人抵达的深水区。英伟达Cosmos偏向世界生成与渲染李飞飞团队的相关研究侧重物理认知Yann LeCun推进的路线更关注本体控制与交互。各家路线各有侧重也各自对应不同的商业目标。大晓开悟的特殊之处是试图把理解、生成、预测放进同一套架构中更偏向将三类能力融合打通最终指向自我进化与多机协同的高阶目标。在王飞看来这是技术路线选择上的本质分野。很多团队的世界模型定位停留在工具层面追求的是单点任务的效果上限。大晓从一开始就将世界模型作为支撑持续迭代的基础设施其多模态理解、生成、预测一体化架构所有设计都围绕进化闭环展开。两种路线在初期demo阶段可能看不出太大差距越往高阶走分化会越明显。参考大模型行业的洗牌规律也能得到相似结论。套壳开源模型做后训练的模式短时间内就能拿出可用的产品可一旦向高阶能力升级就会遭遇底层能力不足的硬天花板。只有掌握自主预训练与架构设计能力的团队才能持续补全能力缺口走到行业最后。世界模型赛道正在重演同样的逻辑套壳拼接的方案能做简单垂类场景却永远触达不到自我进化的高阶境界。视频分支的真正作用藏在进化闭环里行业内长期存在一种讨论机器人只要能输出准确的动作轨迹像素级的视频生成属于多余的算力开销。持这类观点的人认为隐空间路线直接输出控制信号效率远高于先渲染画面再解算轨迹的路径。王飞在访谈中给出了完全不同的视角。他认为世界模型与传统VLA模型的差异恰好来自视频生成分支的存在。两类模型都可以输出轨迹控制信号在单次推理的场景下最终效果不会拉开显著差距。视频生成分支的核心作用体现在策略推演的反馈环节。模型同时生成多条轨迹时对应的视频画面可以直观呈现每一条轨迹的交互结果帮助模型判断轨迹的成败与优劣。缺少这一层视觉反馈模型只能输出轨迹无法自主判断执行效果。就像盲人摸象一样能完成动作却不知道动作带来的结果自然谈不上自我反思与优化。大晓开悟世界模型架构图有了视频分支做支撑模型可以一次性推演数十条甚至上百条轨迹从中筛选出最优的几条做进一步迭代优化通过反复推演反思最终得到成功率最高的执行方案这就是“进化”的具象体现。大晓内部的测试数据可以印证这个逻辑。在桌面整理这类单一小空间场景中引入自我进化闭环后任务成功率可以从六成左右提升至九成以上。提升的幅度远超单纯优化轨迹预测模型带来的收益。当然这条路线也有自身的挑战。当前视频生成的精度还无法完全复现所有轨迹的交互细节偶尔会出现轨迹预测与视频生成不同步的情况进而影响自我进化的准确性。王飞坦言目前自我进化能力只在小范围低复杂度场景中验证成熟大空间通用场景下还有很长的路要走。但这条技术路径的方向已经得到验证随着视频生成能力持续提升进化闭环的威力会进一步释放。被低估的人类数据与失败案例的价值数据是大模型时代的核心生产资料世界模型领域也不例外。行业内普遍将真机数据视作最金贵的资源对人类行为数据则抱有复杂态度。很多人认为人类动作包含大量个人习惯带来的冗余信息直接投喂给模型反而会拉低任务成功率。大晓采用的三级渐进式数据训练范式恰好打破了这种认知。三层数据由浅入深分别承担不同的训练目标。第一层是百万小时级的互联网开放视频主要用来学习重力摩擦力等基础物理规律。第二层是十万小时级的人类交互行为数据核心目标是学习通用动作空间与交互范式。第三层是高精度真机数据只用来做最终的动作锚定与微调。王飞提到三层数据目前都还符合尺度定律没有出现边际收益收敛的迹象。其中互联网视频层的规律已经得到全行业验证数据规模持续增长依然能带来物理一致性的稳定提升人类行为数据层正处于规模效应的起点阶段从一万小时提升到十万小时的过程中下游具身任务的成功率提升非常显著真机数据层的规模效应还没有完全释放核心制约因素是机器人的部署量还不够大。参考自动驾驶行业的发展路径一旦百万级真机投入真实场景数据带来的能力提升会非常可观。针对人类动作的冗余问题大晓的解法是对数据做分类处理不同类型的数据承担不同的学习目标。成功案例数据主要学习均值模态提取共性的动作逻辑过滤掉个人习惯带来的冗余噪音失败案例数据反而会被重点对待因为失败的场景千变万化其中蕴含的信息密度远高于成功案例模型通过分析失败案例可以强化对物理因果关系的理解泛化能力提升效果更明显还有一类失败后再成功的案例专门用来训练模型的自我纠错能力支撑自我进化闭环的形成。针对长时程任务容易出现的状态漂移问题这套数据范式配合混合线性实时记忆机制也给出了新的解法。传统流水线方案做长时程任务生成到一定时长后画面就会发散跳变轨迹解算自然无法继续。大晓开悟世界模型创新的混合记忆机制同时保留两部分信息一部分是近几秒内的连续局部视觉特征另一部分是历史任务中关键物体的空间位置与物理状态等全局语义信息二者结合推演后续动作既能保证局部动作的连贯性也能避免长时程下的全局信息丢失。端侧跑通世界模型靠的不只是压缩行业内还有一种普遍认知世界模型算力消耗巨大只能部署在云端端侧只能承载轻量化的VLA模型。大晓在端侧推理上的进展正在打破这个固有印象。王飞透露开悟世界模型部署在端侧单芯片上已经可以实现10-15赫兹的推理频率。单次抓取放置任务的推理耗时约三秒基本接近人类操作的效率。横向对比行业内同量级世界模型推理速度可以达到竞品的十倍甚至数十倍。能做到这个水平核心支撑不来自后期的模型压缩与蒸馏主要源于原生架构层面的设计。团队自研的混合线性注意力算子直接将时间复杂度从平方级降至线性级这一步带来的效率提升就有数倍之多。在此基础上高性能计算团队针对端侧芯片的指令集重构了整套算子推理库再配合图优化与量化技术进一步释放硬件性能。两步优化叠加最终实现了端侧的高效推理。王飞提到世界模型团队普遍偏算法导向具备底层高性能计算能力的团队非常少。大多数团队采用开源架构做二次开发自然很难在底层算子层面做深度优化。这也是为什么很多模型参数规模相近实际推理效率会拉开数量级差距。此外端侧与云侧也做了清晰的能力分工。端侧负责交互反馈类任务低延迟隐私性强适配家庭封闭厂区等场景。云侧承担自我进化相关的高算力任务并发推演大量轨迹并做择优迭代是模型持续进化的核心载体。这套架构也支撑了“一脑多形”的跨本体泛化能力同一个世界模型可以同时驱动灵巧手机器人双臂机器人与人形机器人。对于同构型的新本体甚至可以通过简单的运动学映射实现零样本适配大幅降低跨本体的部署与调试成本。原生一体化架构只需要部署一套模型相比传统多模块拼接的方案部署人力和时间成本都能下降三到四倍。落地不用等满分60分就可以进场整个具身智能行业都在等待规模化落地的拐点。所有人都在关心拐点什么时候会来。最先跑通的场景会在哪里。王飞给出的时间判断是三到五年左右。他参考自动驾驶的发展历程技术成熟只是一方面载体的产能质量提升消费端的认知培育都需要时间周期。人形机器人当前的出货量规模还很小想要培育起成熟的消费市场至少需要经历两到三轮的硬件迭代。本体硬件的噪音、续航、散热等问题预计还需要两到三年的迭代周期才能得到较好解决。他断定最先规模化的场景不会是全无人的工业产线也不会是通用家庭服务机器人半结构化场景下的人机协同模式会更早跑通商业闭环。比如酒店保洁场景中保洁阿姨最耗时的环节是往返物料间运送物料这部分工作完全可以由机器人承接。人负责核心的清洁整理工作机器人承担重复性转运环节整体效率可以提升一倍左右。类似的还有零售分拣、桌面整理等场景人力缺口明确机器人能力可以覆盖核心环节落地门槛相对更低。在落地模式上王飞认为更合理的分工模式是机器人企业输出标准化的基础能力场景合作方提供行业知识与流程拆解双方共建落地方案——机器人能力不需要达到满分六十分的水平就可以进场在真实场景中运行收集数据再反过来迭代模型能力形成正向循环。尾声专访最后王飞提到全球范围内的世界模型赛道各家团队的站位各不相同。英伟达侧重云端基建与世界生成其他前沿海外研究团队更关注交互与控制技术而中国团队最大的优势来自丰富的落地场景与完整的供应链体系。正是基于这样的背景大晓自身也在走软硬一体耦合迭代的路线。大脑和本体同步研发算法需求定义本体构型本体能力反过来约束算法设计。单纯做大脑或者单纯做硬件都很难走到终局软硬协同优化才能最终实现性能与成本的最优解而这种做法又恰好符合中国的优势所在。在王飞看来世界模型的竞争不只是模型参数、生成效果或榜单成绩的竞争而是能否把架构、数据、端侧部署和真实场景反馈串成一个持续迭代系统。这个系统能否跑通才是世界模型从技术报告走向产业现场的关键。世界模型的竞赛早已不是参数规模和生成效果的表层比拼真正的分水岭在于谁能先构建起完整的自我进化闭环、走向物理AI在真实场景中跑通正向迭代的循环。当世界模型的定位从炫技的演示工具转向支撑持续进化的基础设施具身智能的规模化落地才真正迈出了最关键的一步。*本文图片均来源于网络此内容为【智能相对论】原创仅代表个人观点未经授权任何人不得以任何方式使用包括转载、摘编、复制或建立镜像。部分图片来自网络且未核实版权归属不作为商业用途如有侵犯请作者与我们联系。•AI产业新媒体;•澎湃新闻科技榜单月度top5;•文章长期“霸占”钛媒体热门文章排行榜TOP10;•著有《人工智能 十万个为什么》•【重点关注领域】智能家电含白电、黑电、智能手机、无人机等AIoT设备、智能驾驶、AI、、、AI、AI、AR/VR、、开发者以及背后的芯片、算法等。