Paper Morning 2026-04-21

各位早上好，今天Paper Morning开播。最近世界模型这个方向很热闹，咱们今天就聊聊这个领域的新进展。其实世界模型在AI for Science里是个很本质的东西，咱们做物理仿真，说到底就是在构建世界的模型，所以今天这几篇工作虽然表面上看是自动驾驶、游戏 agent 什么，但背后都在回答一个共同的问题：怎么让机器理解并预测复杂系统的行为。先看 OneVL这篇文章。它解决的是自动驾驶里一个很现实的问题：我们都知道 chain-of-thought 推理很强，但它本质上是一个自回归过程，每一步都要 token by token 地生成，这对实时性要求极高的自动驾驶来说是致命的延迟。作者的洞察很有意思：之前很多 latent CoT 方法效果不如显式推理，原因是它们把推理压缩成了纯语言的符号抽象，而没有抓住真正支配驾驶行为的因果动力学。OneVL 的做法是通过两个辅助解码器来监督隐状态的生成，一个解码器输出语言解释，另一个解码器重建环境状态，这样强制隐状态同时编码了语言推理和物理世界的因果信息。这个思路其实给我们做科学计算很大的启发：咱们训练 PDE 模型的时候，是不是也应该让模型同时学到物理规律的文字描述和数值预测？两者互为监督，可能比单纯拟合方程更有效。接着看 MultiWorld，它把世界模型从单智能体扩展到了多智能体多视角的场景。这个工作的背景很直接：真实世界里很少有孤立系统，大到气候变化、小到分子相互作用，都是多体多尺度的复杂系统。但现有方法处理多个智能体的时候往往力不从心，因为需要同时保证每个智能体的可控性，以及不同视角下观测的一致性。MultiWorld 提出了两个关键模块：多智能体条件模块和全局状态编码器。前者实现了精确的多智能体控制，后者保证了多视角观测的连贯性。我看到这项工作的时候第一时间想到的是分子动力学模拟——其实分子体系就是典型的多智能体系统，每个原子既受其他原子影响，又可以从不同角度观测。如果能把这种多智能体世界模型的技术迁移到分子仿真，说不定能帮助我们更好地模拟蛋白质折叠或者材料相变这类多体相互作用主导的过程。最后聊聊 Agent-World，这篇文章关注的是怎么让大语言模型成为真正能操作真实世界工具的通用 agent。我们之前讨论过，LLM 再强，如果只能聊天不能干活，价值就很有限。Agent-World 的核心贡献是构建了一个自我进化的训练场，它能够自主探索真实世界的数据库和工具生态，然后合成可验证的任务。这个设计很有启发性：它模拟了人类科研工作者不断发现新问题、构建新实验的过程。换个角度看，这种思路其实可以延伸到科学发现的自动化上——咱们能不能也构建一个类似的环境，让 AI agent 自主去探索科学文献、设计实验、验证假设？这或许是未来 AI for Science 的一个重要方向。今天这三篇论文看似主题分散，但都指向一个共同的趋势：世界模型正在从简单的状态预测，演变成能够理解因果关系、多体交互、并且能够规划行动的复杂智能系统。这种演进对科学计算的意义在于，我们越来越有能力构建能够捕捉真实世界复杂性的数字孪生，无论是自动驾驶的仿真环境，还是分子动力学的模拟系统，世界模型都在成为连接 AI 能力和物理世界的重要桥梁。这可能比单纯追求更高的 PDE 求解精度，更接近 AI for Science 的终极目标。今天就到这里，我们明天继续。

Paper Morning 2026-04-21

本期涉及论文