Paper Morning 2026-06-25

各位早上好，Paper Morning又和大家见面了。今天想先从一个观察说起。上周参加一个研讨会，大家还在讨论foundation model怎么迁移到科学计算，结果转头一看工业界已经跑得没影了。今天这几篇论文虽说不在我们熟悉的neural operator赛道上，但它们透露的信号其实和我们关心的AI for Science范式演进高度相关。先看Wan-Streamer。这篇文章提出了一个端到端的实时交互foundation model，把语言、音频、视频都统一到一个Transformer里做流式处理。听起来像是做虚拟主播或者陪伴机器人，但它真正有意思的地方在于彻底消解了传统级联系统的延迟——过去做语音交互要分VAD、ASR、LLM、TTS、Avatar好几棒，现在一棒子直接递进下去。这让我想到一个问题：我们做科学计算的时候，是不是也经常陷入这种模块化解耦的思维？ PDE求解器和神经网络之间、数据处理和模型推理之间，是否存在类似的冗余和延迟？如果未来我们要实现真正的实时科学推理，这种原生流式的架构思想或许值得借鉴。第二篇关于Agent记忆系统的论文很有意思。它指出当前评估agent记忆还停留在端到端的成功指标上，把整个系统当成黑盒，但底层系统层面的问题——比如运维成本、不同记忆模块之间的架构权衡、知识动态更新时的鲁棒性——其实没人好好研究。这让我想到我们AI4S社区一个相似的困境：我们评测一个PDE求解器，往往只看最终精度，却很少关注推理时延、内存占用、增量学习能力这些系统层面的东西。这篇文章提供了一个数据管理视角的评估框架，我觉得对于科学计算的模型评测体系建设是很有启发的。第三篇DomainShuttle做的是开放域主题驱动的视频生成，核心贡献是让模型在保持主体特征的同时，又能灵活适应跨域场景比如说把一只真实的猫转换成动画风格。它提出的"shuttle"概念——在不同域之间灵活穿梭——其实也呼应了我们做科学模型时常面临的挑战：到底是追求领域特异性还是通用性？过去我们觉得这两者是非此即彼的，但现在看来通过适当的架构设计，完全可以在保真度和可编辑性之间找到平衡。第四篇iLLaDA是一篇很有意思的方法论探索。它不用传统的自回归和因果注意力，而是用masked diffusion加上双向注意力，从头训练了一个8B参数的模型，在12T tokens上做预训练。结果显示在数学、代码、推理等任务上都有显著提升。这里有个值得思考的点：diffusion不仅仅适用于图像生成，它作为一种生成范式，正在向文本和更广泛的多模态渗透。那么对于科学计算中的高维函数逼近，diffusion思路能否带来新的可能性？特别是当我们需要生成复杂的后验分布或者处理不确定性量化时，这种双向建模能力可能比自回归更自然。最后NatureBench这个工作非常大胆。它从Nature系列期刊里提取了90个真实科学任务，构建了一个跨学科的基准，用来检验AI coding agent能不能超越简单复现走向真正发现。结果最强的模型也只在不到18%的任务上超过SOTA。这说明什么？说明当前 agent 在科学研究中的能力还是有边界的，它擅长做方法迁移，但距离独立做出科学发现还有很长的路。不过这个基准本身很有价值——它让我们重新思考什么才是真正有意义的"AI辅助科学发现"。好，总结一下今天的观察。今天这几篇论文看似分散，但都指向同一个趋势：AI系统正在从模块化解耦走向原生融合，从被动工具走向主动交互，从单一能力走向系统级设计。Wan-Streamer用原生流式架构消解了延迟，agent记忆系统在重新审视系统级权衡，DomainShuttle在特异性和泛化性之间找到中间态，iLLaDA用diffusion重新定义语言模型，NatureBench则在追问AI到底能在多大程度上介入科学发现。这些探索叠加在一起，预示着AI正在从"能做什么"迈向"怎么做更好"的新阶段。而这个命题，恰恰也是我们AI for Science最需要回答的问题。好了，今天的播报就到这里，我们明天早上继续聊。

Paper Morning 2026-06-25

本期涉及论文