Paper Morning 2026-06-25

2026-06-25

各位早上好,Paper Morning又和大家见面了。 今天想先从一个观察说起。上周参加一个研讨会,大家还在讨论foundation model怎么迁移到科学计算,结果转头一看工业界已经跑得没影了。今天这几篇论文虽说不在我们熟悉的neural operator赛道上,但它们透露的信号其实和我们关心的AI for Science范式演进高度相关。 先看Wan-Streamer。这篇文章提出了一个端到端的实时交互foundation model,把语言、音频、视频都统一到一个Transformer里做流式处理。听起来像是做虚拟主播或者陪伴机器人,但它真正有意思的地方在于彻底消解了传统级联系统的延迟——过去做语音交互要分VAD、ASR、LLM、TTS、Avatar好几棒,现在一棒子直接递进下去。这让我想到一个问题:我们做科学计算的时候,是不是也经常陷入这种模块化解耦的思维? PDE求解器和神经网络之间、数据处理和模型推理之间,是否存在类似的冗余和延迟?如果未来我们要实现真正的实时科学推理,这种原生流式的架构思想或许值得借鉴。 第二篇关于Agent记忆系统的论文很有意思。它指出当前评估agent记忆还停留在端到端的成功指标上,把整个系统当成黑盒,但底层系统层面的问题——比如运维成本、不同记忆模块之间的架构权衡、知识动态更新时的鲁棒性——其实没人好好研究。这让我想到我们AI4S社区一个相似的困境:我们评测一个PDE求解器,往往只看最终精度,却很少关注推理时延、内存占用、增量学习能力这些系统层面的东西。这篇文章提供了一个数据管理视角的评估框架,我觉得对于科学计算的模型评测体系建设是很有启发的。 第三篇DomainShuttle做的是开放域主题驱动的视频生成,核心贡献是让模型在保持主体特征的同时,又能灵活适应跨域场景比如说把一只真实的猫转换成动画风格。它提出的"shuttle"概念——在不同域之间灵活穿梭——其实也呼应了我们做科学模型时常面临的挑战:到底是追求领域特异性还是通用性?过去我们觉得这两者是非此即彼的,但现在看来通过适当的架构设计,完全可以在保真度和可编辑性之间找到平衡。 第四篇iLLaDA是一篇很有意思的方法论探索。它不用传统的自回归和因果注意力,而是用masked diffusion加上双向注意力,从头训练了一个8B参数的模型,在12T tokens上做预训练。结果显示在数学、代码、推理等任务上都有显著提升。这里有个值得思考的点:diffusion不仅仅适用于图像生成,它作为一种生成范式,正在向文本和更广泛的多模态渗透。那么对于科学计算中的高维函数逼近,diffusion思路能否带来新的可能性?特别是当我们需要生成复杂的后验分布或者处理不确定性量化时,这种双向建模能力可能比自回归更自然。 最后NatureBench这个工作非常大胆。它从Nature系列期刊里提取了90个真实科学任务,构建了一个跨学科的基准,用来检验AI coding agent能不能超越简单复现走向真正发现。结果最强的模型也只在不到18%的任务上超过SOTA。这说明什么?说明当前 agent 在科学研究中的能力还是有边界的,它擅长做方法迁移,但距离独立做出科学发现还有很长的路。不过这个基准本身很有价值——它让我们重新思考什么才是真正有意义的"AI辅助科学发现"。 好,总结一下今天的观察。今天这几篇论文看似分散,但都指向同一个趋势:AI系统正在从模块化解耦走向原生融合,从被动工具走向主动交互,从单一能力走向系统级设计。Wan-Streamer用原生流式架构消解了延迟,agent记忆系统在重新审视系统级权衡,DomainShuttle在特异性和泛化性之间找到中间态,iLLaDA用diffusion重新定义语言模型,NatureBench则在追问AI到底能在多大程度上介入科学发现。这些探索叠加在一起,预示着AI正在从"能做什么"迈向"怎么做更好"的新阶段。而这个命题,恰恰也是我们AI for Science最需要回答的问题。 好了,今天的播报就到这里,我们明天早上继续聊。

本期涉及论文