Paper Morning 2026-05-03

各位早上好，又到了周末的Paper Morning时间。今天想和大家分享几篇非常有意思的论文，它们有一个共同的主题在呼应：AI agent正在从纯语言的世界里走出来，开始理解和操作我们这个物理世界。先看第一篇，Visual Generation in the New Era。这篇论文的标题本身就很直白：视觉生成正在从“原子映射”走向“agentic世界建模”。作者提出了一个五级分类法，从最基础的原子生成conditional生成in-context生成一直到agentic生成和世界模型生成。听起来像是技术术语的堆砌，但背后有一个很清晰的逻辑：过去的视觉模型本质上是一个被动的渲染器，给定条件就输出图像，但真正的智能需要的是对结构、动态和因果关系的理解。这让我想起我们在科学计算里常常说的“物理先验”，视觉生成领域的同行也在经历类似的范式转换，从纯粹的appearance synthesis走向grounded intelligence。接下来这篇Heterogeneous Scientific Foundation Model Collaboration很有意思，它提出了一个叫做Eywa的框架。我特别想说的是这个问题的出发点：现在的agent系统非常依赖语言作为通用接口，但这对于科学领域来说是远远不够的。因为科学里有大量非语言的数据形式，比如分子结构、卫星遥感图像、实验观测序列等等。Eywa的核心想法是给这些领域专用的大模型配上语言模型的推理接口，让语言模型能够引导这些非语言模型的推理。这其实就是在做一件我们AI4S领域特别关心的事情：如何让不同模态的科学基础模型真正协同工作，而不是各自为战。第三篇GLM-5V-Turbo则从另一个角度呼应了这个趋势。这篇论文说要做一个“原生”的多模态agent基础模型，意思是多模态感知不应该只是语言模型的一个外挂接口，而应该成为推理、规划、工具使用和执行的核心组成部分。这里我特别想指出一个观察：过去我们训练多模态模型的时候，往往是先有一个语言模型，然后再把视觉能力“嫁接”上去。但GLM-5V-Turbo的设计理念是把视觉理解和语言推理放在同一个训练框架里，让模型从一开始就把视觉信息作为推理的一等公民。这和我们在neural operator里强调的“把物理先验嵌入模型架构”是一个思路：不是事后补救，而是从头设计。第四篇RADIO-ViPE是关于语义SLAM的，它能够在动态环境里直接把自然语言查询和3D空间中的物体对应起来，而且只需要单目RGB视频，不需要深度传感器或者姿态初始化。这篇技术细节我不展开，但我想指出一个更宏观的观察：视觉语言模型正在和机器人系统深度结合，SLAM这个传统领域正在被基础模型重新定义。过去我们需要精确的几何建模和特征匹配，现在可以通过语义理解来实现定位和建图。这对于科学计算里的一个重要问题——从观测数据重建物理场——其实有很强的借鉴意义。最后一篇TIDE提出了一个跨架构的扩散大语言模型蒸馏方法。扩散大语言模型相比传统自回归模型有并行解码和双向上下文的优势，但模型太大，TIDE解决了不同架构、不同注意力机制、不同tokenizer之间的知识迁移问题。这个技术本身很扎实，但我更想说的是它反映出的一个趋势：扩散模型不仅仅是在图像生成领域火，现在已经开始进入语言模型的地盘了。而且蒸馏技术的成熟意味着这些能力会逐渐下沉到更小的模型上，最终可能在终端设备上也能运行强大的多模态agent。好了，今天的论文都聊完了。我有一个整体的观察想和大家分享：过去我们谈AI agent，大部分讨论都集中在“用语言模型做什么”，但这一系列论文其实在指向一个更大的范式转变——agent正在从语言中心走向多模态原生，从单一模型走向异构协作，从静态推理走向动态交互。而这和我们AI4S领域正在发生的事情高度共振：我们也需要把物理模拟、实验观测、科学推理这些不同模态的能力整合在一起，也需要让基础模型真正理解物理世界的结构和因果。这些方向看似各自独立，但其实都在为同一个未来铺路：通用智能体理解物理世界的那一天，也许比我们想象的更近。今天的播报就到这里，我们下期再会。

Paper Morning 2026-05-03

本期涉及论文