Paper Morning 2026-04-20

2026-04-20

各位早上好,Paper Morning开播了。 今天想先聊一篇关于扩散模型基础理论的工作。扩散模型现在火得不行,从图像生成到科学模拟到处都在用,但这篇论文指出了一个之前被忽视的根本性问题——SNR-t偏差。作者发现,在训练时,样本的信噪比和 timestep 是严格绑定的,但推理时这个对应关系被打破了,导致误差累积。他们给出了一个简洁的微分校正方法。这个发现为什么重要呢?因为它提醒我们,扩散模型的采样过程和训练过程之间存在一个隐藏的契约破坏了。我们现在训练科学计算用的扩散模型时,往往只关心loss下降,却很少检查这个训练-推理的一致性。这篇工作算是一个提醒:做应用的时候,基础假设不能想当然。 说完扩散模型的底层问题,我们来看一个更贴近实际应用层面的进展。现在训练大语言模型,尤其是有推理能力的模型,一个常见套路是用更强模型生成的合成数据来做微调。但这篇论文发现了一个大坑:对于Qwen3-8B这种新型推理模型,这个套路居然不work,甚至还会让性能下降。原因是教师模型生成的数据和学生模型的风格差异太大了。他们提出了TESSY框架,让教师和学生模型交替生成风格标记和非风格标记,从而弥合这个分布鸿沟。这个工作让我想到一个类比:这就像让一个数学教授去教小学生解题,用的是大学教授的思维方式和书写习惯,小学生根本接不住。TESSY的做法,相当于在教学过程中加入了一个“翻译”步骤,把高深的解题思路转化成学生能接受的表达方式。对于我们AI4S社区来说,这条经验同样适用——当我们用强大的teacher model生成科学计算的训练数据时,不能只看推理能力,还得关注风格兼容性。 今天的最后一篇想聊聊视频预测的一个新思路,叫Re2Pix。现在的视频预测方法大多是直接预测未来帧,但这篇工作认为应该分两步走:先在特征空间预测未来语义,再根据语义去渲染像素。他们用冻结的vision foundation model提取特征,先预测特征表示,然后用latent diffusion model根据这些特征去生成画面。这个思路让我想起物理模拟中的分层方法——先预测粗粒度的物理量,再做细粒度的重建。本质上都是在把一个高维的生成问题分解为更容易把握的子问题。对于想做科学视频预测的朋友,这种层次化思路可能比端到端的直接预测更可控。 好了,今天的播报就到这里。这几篇文章加起来,我看到一个共同的脉络:不管是扩散模型、推理模型还是视频生成,都在强调训练和推理之间的一致性问题——训练目标和使用场景的匹配、生成风格和学生能力的对齐、语义预测和像素重建的解耦。这种对“一致性”的关注,可能值得我们 在设计AI4S方法时多加留意。早上好各位,明天见。

本期涉及论文