Paper Morning 2026-03-31

2026-03-31

各位早上好,Paper Morning又和大家见面了。 今天想先从一个我们领域里正在悄悄发生的变化聊起。最近视频生成和世界模型的工作特别活跃,但其实这些进展和我们关心的科学计算之间,存在一些有意思的关联。 先来看第一篇工作,Hybrid Memory for Dynamic Video World Models。这篇文章解决的是一个很直观但很少被正式提出的问题:当前的世界模型在处理动态物体时会“失忆”。当物体移出画面再回来时,模型要么把它冻住,要么让它消失。作者提出混合记忆机制,把静态背景和动态主体分开处理,静态背景用精确归档,动态主体用持续追踪。他们还搞了一个HM-World数据集,有五万九千个高保真片段。这个工作的意义不只是视频生成本身,它其实在问一个很根本的问题:当我们想让AI理解物理世界时,如何让模型保持对物体的持续感知?这和我们做 PDE 求解时遇到的长期依赖问题其实是很像的。 顺着这个思路,第二篇 PackForcing 就在处理另一个实际的工程问题:长视频生成时的计算效率瓶颈。自回归扩散模型生成长视频时,KV-cache会线性增长,内存爆炸。他们提出的三分区策略很有意思,把历史上下文分成“锚点 token”保留完整分辨率,“中间 token”做32倍压缩,“最近 token”保持高精度。这个设计让我想到我们在做神经算子时对不同尺度信息的分层处理——都是如何在计算资源和精度之间找平衡。顺便说一句,三十二倍的 token 压缩,这个数字和我们在算子学习里做降维的思路也隐隐呼应。 第三篇 TAPS 转向了大语言模型的推理加速。Speculative decoding 已经被广泛使用,但这篇工作问了一个我们可能习以为常的问题:draft 模型到底该怎么训练?他们发现任务专属的训练数据对接受率影响巨大——用数学数据训练的 draft 在数学推理上更强,用对话数据训练的则更擅长通用任务。这揭示了一个我们在 AI4S 里也在思考的问题:foundation model 的训练数据分布,真的能“一个模型打天下”吗?还是说针对特定科学领域,也需要专门调优的 draft? 第四篇工作就很有意思了,Medical AI Scientist。这是第一个专门针对临床医学的自主研究框架,把文献调研变成可追溯的证据,再生成研究想法,最后写成论文初稿。作者强调了一个词叫“clinician-engineer co-reasoning”,让医学专家和 AI 系统共同推理。这其实回应了我们一直在讨论的 AI agent 如何真正帮助科学发现,而不只是写代码或者画图表。它需要扎根于医学证据,有可解释性,有专业领域的约束。这和我们做物理信息神经网络时需要尊重物理定律,是一个道理。 最后一篇 ShotStream 把多镜头视频生成重新定义成了 next-shot 的因果生成问题。用户可以流式地给出指令,模型动态调整叙事方向。他们用分布匹配蒸馏把双向模型转成因果模型,解决了误差累积的老大难问题。这里让我想到一个更大的图景:无论是视频生成还是科学模拟,我们其实都在和“误差累积”搏斗。区别在于视频是视觉误差,科学计算是物理偏差。但解决问题的思路——如何让模型在生成过程中保持一致性——是相通的。 好了,今天的播报就到这里。这五篇文章表面上看是视频生成和 LLM 优化的专场,但把它们串起来看,有一个共同的脉络在浮现:如何在长程任务中保持一致性和记忆,如何在不同任务间做特化与通用的权衡,以及如何让 AI agent 真正扎根到专业领域的约束当中去。这些问题不会止于视频或者医学,它们会在我们关心的科学计算、PDE 求解、乃至整个 AI4S 的范式里持续回响。早上好各位,明天见。

本期涉及论文