Paper Morning 2026-05-13

2026-05-13

各位早上好,又到了Paper Morning的时间。 今天想跟大家聊一个正在悄然改变具身智能研究范式的话题——World Model,也就是世界模型。可能不少朋友已经注意到,近几个月来arXiv上关于世界模型的论文突然多了起来,而今天我们要讨论的几篇论文,恰好勾勒出了这个方向正在发生的几个关键转变。 先来看这篇World Action Models,把这个概念叫做WAM。大家知道,传统的VLA模型,也就是视觉语言动作模型,在语义泛化方面已经做得很不错了,但它们本质上还是一种反应式的映射——看到什么就输出什么动作,中间并没有显式建模物理世界在干预下会如何演化。这篇工作的核心贡献,就是提出把预测性的世界模型嵌入到动作生成管道中,让模型同时建模未来状态和动作的联合分布,而不仅仅是条件分布。作者把这种新范式叫做World Action Models。这个思路让我想起我们在PDE求解里常说的“预测-校正”机制——先有对系统演化的预测,再基于预测来做决策,只不过这里预测的不是物理量而是智能体与环境交互的轨迹。当然,现在WAM的定义还比较宽泛,不同工作在架构、学习目标上各有侧重,这也引出了我们接下来要聊的话题。 那么这篇MCP-Cosmos就更有意思了。它把世界模型和最近火热的MCP也就是模型上下文协议结合起来,提出了一种叫做BYOWM的策略,让Agent可以在潜在空间里先模拟状态转移、 refine计划,再去执行。这个思路其实很有意思,因为它其实在问一个根本性的问题:当我们有了LLM作为大脑,要不要给它配一个“物理直觉”?以前我们觉得LLM什么都能干,但现在看来,光有语言智能还不够,要真正完成复杂的自动化任务, Agent需要能够“想象”自己的行动会导致什么后果。这篇工作让我想到RL里的model-based方法——有了世界模型,就可以在仿真环境里大量试错,成本比真实交互低得多。现在只不过是把这一步放到了latent space来做,效率会更高。 刚才两篇都是新工作,而第三篇是一篇综述,来自港科大几位老师的团队,系统梳理了世界模型在机器人学习中的角色变迁。这篇综述的价值在于,它把过去几年散落在不同子领域的进展——比如世界模型如何和policy耦合、如何作为learned simulator用于RL和评估、还有最近大火的可控视频生成模型——串联成了一条演进线索。读完会有一个清晰的感受:世界模型从最早只是一个辅助planning的工具,逐渐变成了可以独立生成数据、甚至可以替代真实物理环境的“数字孪生”。而随着foundation model和大规模视频生成技术的进步,这个趋势正在加速。 到这里可能有些朋友会问,这些世界模型的工作跟AI for Science有什么关系?我个人的观察是,科学计算领域其实一直在做类似的事情——我们用神经网络逼近PDE的解算子,不就是一种隐式的世界模型吗?区别在于,传统上我们更关心空间和时间上的预测精度,而今天这些具身智能的工作提醒我们,预测只是第一步,关键是预测之后如何做决策、如何干预。这可能是科学计算下一步可以借鉴的方向。 聊完世界模型这两篇,再来看一篇风格不太一样的。L2P这篇文章做的是如何高效利用预训练的latent diffusion model来训练像素空间的生成模型。大家知道,现在diffusion model在图像生成领域已经非常强了,但像素空间的模型训练成本极高。L2P的思路很巧妙:它直接把预训练LDM的知识迁移过来,冻住中间层,只训练浅层来学习latent到pixel的转换,而且用的是LDM自己生成的合成数据。这就相当于站在巨人的肩膀上,不用从零开始爬。作者在报告里说,这种方法可以让模型快速收敛,而且不需要任何真实数据。这个思路其实跟AI4S里用预训练的foundation model来做下游任务有异曲同工之处——都是先在大规模数据上学到通用表征,再针对特定目标做高效适配。 最后一篇Token Superposition Training,是关于如何让LLM预训练更高效的。TST这个方法的核心,是在训练时把多个相邻token打包成一个bag,用multi-hot crossentropy来训练,然后再恢复标准训练。作者在270M到10B参数的规模上都验证了有效性。这个工作解决的是一个很实际的问题:大模型预训练太贵了,如何在不改并行方案、optimizer、tokenizer的前提下提升数据吞吐量?这种效率优先的思路,对于我们做AI4S的人来说其实很有启发——、科学计算场景里,动辄几十年的仿真数据、几十TB的物理观测,如何更高效地利用这些数据来训练模型,可能是决定foundation model能不能真正落地的关键。 好了,今天播报的最后想做一个整体提炼。今天这几篇论文看起来散,但实际上都指向同一个趋势:不管是世界模型还是高效训练方法,大家都在做一件事——那就是把AI系统的能力从“反应式”向“预测式”迁移。过去的模型是看到输入给输出,现在的模型需要能够建模输入和输出之间的因果链条。这个趋势在NLP里是o1和test-time compute,在机器人里是世界模型,在科学计算里,其实就是我们一直在追求的、能够真正捕捉物理规律而非仅仅拟合数据点的可预测模型。这个方向的进展,值得我们持续关注。

本期涉及论文