Paper Morning 2026-05-01

2026-05-01

各位早上好,Paper Morning又和大家见面了。 今天想先从一个更大的图景说起。大家有没有注意到,最近AI领域的基础模型研究正在悄悄发生一个转向——从单纯追求语言能力或者生成质量,开始往“agentic”和“世界模型”方向走了。这个趋势其实和我们在AI4S关心的问题特别相关,因为科学计算本身就是一种世界建模。 先看第一篇论文,Visual Generation in the New Era。这篇文章很有意思,它不是讲具体的生成技术,而是给视觉生成领域画了一张路线图。作者把视觉生成分成了五个层次:原子生成、条件生成、上下文生成、agentic生成,最后是世界模型生成。这个分类方式让我想到我们做PDE求解时,从数值离散到神经网络近似,再到物理信息学习的发展路径,其实也是一个从“算子拟合”到“智能体建模”的过程。他们特别提到,现在模型在空间推理、长程一致性和因果理解上还有明显短板,而这些恰恰也是科学模拟中我们最关心的能力。你可以想象,如果一个视觉生成模型能够真正理解物体的物理行为和因果关系,那它和我们的物理仿真模型之间的距离就近多了。 接下来这篇 Heterogeneous Scientific Foundation Model Collaboration,标题看起来有点技术,但它解决的问题其实非常根本。我们知道现在各个科学领域都有自己的基础模型——生物的、材料的、气象的——但这些模型往往是独立训练的,互相之间没法直接对话。这篇文章提出的Eywa框架,想让语言模型充当一个“协调器”,去调用那些非语言的基础模型。读到这我就在想,这其实和我们神经算子领域的multi-operator学习有点像,我们也在试图让一个模型处理不同类型的偏微分方程。那到底是用一个统一的大模型,还是用这种多模型协作的方式,可能是接下来需要思考的问题。 第三篇 GLM-5V-Turbo 试图做一个“为agent而生”的多模态基础模型。关键点在于,它不是简单地把视觉信号嫁给语言模型,而是让多模态感知成为推理和规划的核心组件。这对AI4S的启示在于,我们做科学计算时,视觉信息可能不只是结果展示——比如实验观测数据、分子结构图像——如果模型能真正把这些视觉信息整合进推理链条,那科学发现的流程可能会被重塑。 还有一篇值得提一下,Large Language Models Explore by Latent Distilling。这篇不是直接做科学问题,但它提出的“探索性采样”方法很有意思。它让模型在解码时通过一个轻量级的蒸馏网络去预测深层表示,从而产生语义更多样化的回答。这其实和我们在科学计算中遇到的“如何让模型探索解空间”的问题有异曲同工之妙。虽然它应用在文本生成上,但这种test-time compute的思路,也许能给我们的不确定性量化或者反问题求解一些启发。 今天这几篇论文看起来比较分散,但我感觉它们背后有一个共同的暗线:都在尝试突破“单一模态、单一任务”的限制,无论是视觉生成、科学模型协作、还是LLM的语义探索。这其实也是我们AI4S一直在追求的目标——让模型能够理解物理世界的多模态信息,能够处理不同类型的方程,能够在推理时灵活调用各种工具。也许过不了多久,我们就能看到这些视觉和语言领域的进展,反向渗透到科学计算中来。 好了,今天的分享就到这里,我们下期再见。

本期涉及论文