Paper Morning 2026-05-16

2026-05-16

各位早上好,周六的早晨,Paper Morning又和大家见面了。 今天想和大家聊几篇有意思的论文,核心主题是:在科学计算和智能体建模领域,我们正在看到一些范式层面的新尝试。 先说一篇和咱们AI4S直接相关的文章。Scaling Scientific Machine Learning towards universal foundation model是很多人关心的话题,但这两年大家也逐渐意识到一个核心瓶颈:negative transfer。简单讲,就是把不同物理机制的PDE放在一个模型里训练,梯度冲突、训练不稳定、plasticity loss这些问题就来了。这篇叫Shodh-MoE的工作,提出了用稀疏MoE的思路来解决这个问题。它用的是一种latent transformer架构,先通过physics-informed autoencoder把状态压缩到16的三次方个物理latent,然后用Helmholtz风格的velocity参数化保证divergence-free。核心创新是sparse mixture-of-experts routing,让不同物理机制走不同的expert路径,避免互相干扰。 这让我想到,其实NLP里multi-task learning的negative transfer问题已经被研究很久了,但直到MoE出现才给出比较实用的解法。科学计算领域的multi-physics问题,本质上也是类似的——不同PDE regime的spectral和geometric demands是不兼容的。Shodh-MoE的价值在于,它把这个思路concretize了,给出了一个可操作的架构。不过我个人比较好奇的是,这种sparse routing在inference时的计算开销和实际精度提升之间是否真的比dense model有显著优势,还需要更多实验验证。 接下来转向视频生成和世界模型这个方向。SANA-WM这个工作关注的是一个很实际的问题:如何高效地生成长达一分钟的高质量视频,并且实现精确的camera control。它是一个2.6B参数的模型,在720p分辨率上达到了和大规模工业模型相当的视觉质量,但效率明显更高。它有四个核心设计:Hybrid Linear Attention结合了frame-wise的Gated DeltaNet和softmax attention,来处理长上下文;Dual-Branch Camera Control实现6-DoF trajectory的精确控制;两阶段生成管道用refiner提升质量;还有robust的annotation pipeline。 这里有个很有趣的观察:大家以前可能觉得视频生成主要是娱乐和内容创作,但实际上minute-scale的高保真世界建模,对自动驾驶、机器人仿真这些需要物理一致性的场景非常关键。而SANA-WM的Hybrid Linear Attention设计,本质上是在处理长程依赖和局部细节之间的trade-off——这和我们PDE求解中面对的问题是很类似的。 然后是Causal Forcing加加,这篇工作研究的是一个更激进的问题:能不能做到frame-wise的autoregression,只有1-2步采样就能生成高质量视频?它提出了一个causal consistency distillation的思路,解决了few-step AR student的初始化问题。如果把这个思路和科学计算联系起来,test-time compute的scaling在NLP里已经火了一波,现在在视频生成里也在探索。某种程度上,diffusion model的sampling steps和PDE的time-stepping是类似的——都是要在精度和计算成本之间找平衡。Causal Forcing加加的工作表明,即使是few-step也能保持质量,这对需要real-time交互的场景意义重大。 最后简单提一下另外两篇。Darwin Family是个挺有意思的思路——不做额外训练,而是通过evolutionary merging把已有checkpoint的能力重新组合。它用了一个14维的adaptive merge genome,还有MRI-Trust Fusion来自适应平衡不同层的重要性。这个方向对咱们做foundation model的团队很有参考价值,因为pretraining成本越来越高,post-training的优化空间就变得很重要。MemLens则是提出了一个LVLMs长程记忆的benchmark,包含789个问题,涵盖五种记忆能力,它用cross-modal token-counting scheme来衡量context长度的影响。这个工作提醒我们,当模型要处理超长multimodal context时,记忆机制的设计会变得非常关键。 今天的整体观察是:无论是视频生成还是多物理建模,研究者都在处理一个相似的核心挑战——如何在精度和计算成本之间找到平衡,如何在长程依赖和局部细节之间找到平衡。SANA-WM的Hybrid Linear Attention是在处理视觉的长程依赖,Shodh-MoE的sparse routing是在解决物理机制的冲突,Causal Forcing加加则是在探索few-step sampling的极限。这些工作有一个共同点,就是不再盲目追求scale,而是开始精细地考虑资源分配。这可能是接下来科学计算和生成模型共同演进的一个方向。

本期涉及论文