Paper Morning 2026-05-04

各位早上好，Paper Morning又和大家见面了。今天想先从一个观察聊起。我们做AI for Science的人，经常会想一个问题：到底什么才算是科学问题的“基础模型”？是把NLP的大模型直接搬过来用，还是需要针对科学数据单独训练？昨天arXiv上有篇论文叫《Heterogeneous Scientific Foundation Model Collaboration》，作者提出了一个叫Eywa的框架，我觉得这个问题回答得很漂亮。他们指出，现在很多Agent系统很强，但本质上还是被语言绑架了——所有问题都要先翻译成自然语言才能处理。可是科学领域有大量非语言的数据形式，比如分子结构、气象图谱、力学传感器信号，这些都有各自的基础模型。Eywa的做法是让语言模型充当“调度员”，去调用这些专业模型来做推理，而不需要把所有东西都硬塞进语言的模态。这样一来，语言模型负责规划调用，专业模型负责精确预测，各取所长。我觉得这其实回应了我们领域一个核心争论：到底是做一个全能的语言模型来解所有PDE，还是构建一个生态，让不同物理领域的专用模型协同工作？Eywa证明了后者的可行性。顺着这个思路，今天第二篇论文也很有意思。《Co-Evolving Policy Distillation》研究的是怎么把多个专家模型的能力蒸馏到一个模型里。他们发现直接混合训练会导致能力发散，而先训练专家再蒸馏又有行为差距问题。于是提出了一个“共同进化”的思路——让专家和学生在训练过程中就互相学习，而不是等专家完全训练好了再蒸馏。这个设计让我想到我们做PDE求解器的时候，其实经常要面对多物理场耦合的问题，不同求解器之间怎么协同训练，而不是各自为战，最后再想办法整合，可能也需要类似的思路。接下来两篇论文看起来是视觉和多模态方向的，但我觉得和我们关心的科学计算有深层联系。《Visual Generation in the New Era》这篇文章把视觉生成分成了五个层级，从最基础的原子生成，一直到世界模型级别的生成。他们特别提到，现在模型在空间推理、长期一致性、因果理解上还差得很远，而这恰恰是科学模拟最需要的品质。一个好的物理仿真，不仅要生成看起来对的画面，还要符合物理规律，要有因果链条。他们说的Agentic Generation，就是让生成模型具有物理世界的因果推理能力，这个方向其实和我们在做的物理信息神经网络有异曲同工之妙。而《UniVidX》这篇尝试用统一的框架做多模态视频生成，用的是视频扩散模型的先验。他们设计了一个随机条件掩码的机制，让模型在训练时随机决定哪些模态是干净的输入，哪些需要被噪声污染。这样模型就能学会在任意模态组合下生成结果。这让我想到一个问题：我们做科学计算的时候，经常有稀疏观测、缺失数据的困扰，如果能把这种多模态统一的思路迁移过来，是不是可以让PDE求解器在部分观测缺失的情况下仍然给出合理的预测？最后还有一篇偏基础设施的论文，《Intern-Atlas》提出构建一个方法论演化的知识图谱，用来追踪AI研究方法是怎么一步步发展演进的。他们认为现在的文献系统只是把论文连在一起，但没有讲清楚方法和方法之间的血缘关系。这让我想到我们AI4S领域也有类似的问题——一个新的operator架构出现的时候，它到底是在解决什么问题，之前有哪些尝试失败了，为什么现在这个时间点才成功？如果有这样的演化图谱，对于我们理解领域趋势会很有帮助。好，今天的播报就到这里。我总体有一个感觉：今天的几篇论文其实都在回答同一个问题，那就是在“通用”和“专精”之间，我们应该怎么处理它们的关系。无论是视觉生成走向世界模型，还是科学基础模型的协同调用，或者是蒸馏训练中的共同进化，都在探索如何让系统既有泛化能力，又不失专业深度。这种张力，可能正是我们这个领域接下来几年最核心的议题。咱们明天早上接着聊。

Paper Morning 2026-05-04

本期涉及论文