Paper Morning 2026-05-01

各位早上好，Paper Morning又和大家见面了。今天想先从一个更大的图景说起。大家有没有注意到，最近AI领域的基础模型研究正在悄悄发生一个转向——从单纯追求语言能力或者生成质量，开始往“agentic”和“世界模型”方向走了。这个趋势其实和我们在AI4S关心的问题特别相关，因为科学计算本身就是一种世界建模。先看第一篇论文，Visual Generation in the New Era。这篇文章很有意思，它不是讲具体的生成技术，而是给视觉生成领域画了一张路线图。作者把视觉生成分成了五个层次：原子生成、条件生成、上下文生成、agentic生成，最后是世界模型生成。这个分类方式让我想到我们做PDE求解时，从数值离散到神经网络近似，再到物理信息学习的发展路径，其实也是一个从“算子拟合”到“智能体建模”的过程。他们特别提到，现在模型在空间推理、长程一致性和因果理解上还有明显短板，而这些恰恰也是科学模拟中我们最关心的能力。你可以想象，如果一个视觉生成模型能够真正理解物体的物理行为和因果关系，那它和我们的物理仿真模型之间的距离就近多了。接下来这篇 Heterogeneous Scientific Foundation Model Collaboration，标题看起来有点技术，但它解决的问题其实非常根本。我们知道现在各个科学领域都有自己的基础模型——生物的、材料的、气象的——但这些模型往往是独立训练的，互相之间没法直接对话。这篇文章提出的Eywa框架，想让语言模型充当一个“协调器”，去调用那些非语言的基础模型。读到这我就在想，这其实和我们神经算子领域的multi-operator学习有点像，我们也在试图让一个模型处理不同类型的偏微分方程。那到底是用一个统一的大模型，还是用这种多模型协作的方式，可能是接下来需要思考的问题。第三篇 GLM-5V-Turbo 试图做一个“为agent而生”的多模态基础模型。关键点在于，它不是简单地把视觉信号嫁给语言模型，而是让多模态感知成为推理和规划的核心组件。这对AI4S的启示在于，我们做科学计算时，视觉信息可能不只是结果展示——比如实验观测数据、分子结构图像——如果模型能真正把这些视觉信息整合进推理链条，那科学发现的流程可能会被重塑。还有一篇值得提一下，Large Language Models Explore by Latent Distilling。这篇不是直接做科学问题，但它提出的“探索性采样”方法很有意思。它让模型在解码时通过一个轻量级的蒸馏网络去预测深层表示，从而产生语义更多样化的回答。这其实和我们在科学计算中遇到的“如何让模型探索解空间”的问题有异曲同工之妙。虽然它应用在文本生成上，但这种test-time compute的思路，也许能给我们的不确定性量化或者反问题求解一些启发。今天这几篇论文看起来比较分散，但我感觉它们背后有一个共同的暗线：都在尝试突破“单一模态、单一任务”的限制，无论是视觉生成、科学模型协作、还是LLM的语义探索。这其实也是我们AI4S一直在追求的目标——让模型能够理解物理世界的多模态信息，能够处理不同类型的方程，能够在推理时灵活调用各种工具。也许过不了多久，我们就能看到这些视觉和语言领域的进展，反向渗透到科学计算中来。好了，今天的分享就到这里，我们下期再见。

Paper Morning 2026-05-01

本期涉及论文