Paper Morning 2026-05-11
2026-05-11
各位早上好,Paper Morning又和大家见面了。
今天想先从一个大家可能都关心的问题聊起:这两年我们见证了扩散模型从实验室走向千行百业,但当我们把模型做得越来越大、越来越深的时候,是否真的理解了训练过程中会发生什么?第一篇论文就给了我们一个值得警惕的答案。
来自Pengqi Lu的工作研究了深层 Diffusion Transformer 的训练稳定性问题。他们发现,当把DiT扩展到数百层时,网络会悄然进入一种“沉默”状态,论文称之为Mean Mode Screaming。听起来有点戏剧化,但机制本身很有意思:网络在训练表面稳定的情况下,梯度中会累积一种“均值相干”的反向冲击,它打开深层残差分支,让整个网络的表示趋于同质化,最终抑制了token之间的差异化表达。更关键的是,这个过程不是突然发生的,而是Softmax Jacobian的零空间在值同质化后逐步抑制注意力logit梯度导致的。作者通过梯度的精确分解验证了这一机制。这项工作给我们的启示很清楚:扩展不只是堆层数,架构中那些看似优雅的设计——比如残差连接、Softmax——在极端深度下可能成为隐蔽的脆弱点。对我们做科学计算的人来说,这也提醒我们,当把基础模型往大做的时候,不能只关注loss下降,结构性的失效模式可能在暗中积累。
如果说上一篇文章是给扩散模型的大模型梦泼了点冷水,那接下来这篇倒是给了一个很务实的解决方案思路。
Flow-OPD这篇工作关注的是流匹配模型在多任务对齐中的两个经典难题:标量奖励带来的稀疏性,以及多目标优化时的梯度干扰。作者借鉴了大语言模型社区的On-Policy Distillation思想,提出了两阶段对齐策略:先让每个专家模型在单一奖励下充分发育,达到各自性能的天花板,然后再做蒸馏整合。这其实有点像是“先让专精的匠人各自打磨手艺,再让他们坐下来互相学习”。值得注意的是,他们用的GRPO微调方式,在图像生成领域可能不如在NLP中那么常见,这种跨领域的迁移本身就很有意思。它提示我们,RLHF的很多方法论其实有更广的适用面,不一定非要是自回归的文本模型才行。
聊完模型训练的方法论,我们来看看数据层面最近有什么有意思的进展。
HumanNet这个数据集很有意思,它收集了一百万小时的人类中心视频,涵盖第一人称和第三人称视角,包含细致的人体动作、物体交互和工具使用场景。作者不仅仅提供原始视频,还配套了动作描述、手部身体信号等丰富的标注。这让我想到一个更大的图景:机器人领域一直在说缺少大规模的物理交互数据,而现有的视频数据要么是第三人称的泛化场景,要么缺乏精确的动作标注。HumanNet试图同时解决规模和细粒度的问题,这可能为未来的具身智能研究提供一个更扎实的数据基座。不过我也在想,这种数据构建思路是否也适用于科学计算?毕竟我们同样缺乏大规模的物理过程观测数据。
接下来这个工作把我们带到了AI Agent的前沿。
HyperEyes针对的是多模态搜索智能体的效率问题。作者指出,现有的智能体处理多个目标时是串行的,这会导致大量冗余的交互轮次。他们的思路很直接:让智能体在同一个回合内并行发出多个查询,而不是一个一个来。为了做到这一点,他们设计了融合视觉定位和检索的原子动作,并显式地把推理效率当作训练目标。这里面有一个我很认同的理念:效率不应该只是事后优化的指标,而应该是一等公民,在训练阶段就纳入考量。这对科学计算中的智能体设计也有启发——我们构建文献检索、代码生成智能体时,是否也应该把并发查询的能力和效率纳入训练目标?
最后回到今天的第一篇论文,MACE-Dance。
这是音乐驱动舞蹈视频生成的工作,用级联的Mixture-of-Experts架构分别处理运动生成和外观渲染。运动专家负责从音乐到三维动作的映射,同时兼顾运动学的合理性和艺术表现力;外观专家则处理视频级的视觉效果。这种分而治之的思路在复杂任务中很常见,但把它用在音乐到视频的端到端生成上,还是能看出作者对任务难点的清晰认知——运动和外观确实是两个不同性质的问题,强行用一个模型同时搞定可能两边都做不好。
好,让我们回到今天的整体观察。我注意到一个有趣的脉络:这几篇文章虽然主题分散,但都指向同一个关切——如何在大规模、高复杂度的AI系统中保持可控和高效。无论是深层DiT的稳定性、流匹配的多任务学习、数据效率优先的智能体训练,还是基础模型的数据基建,这些工作都在回答一个共同的问题:当我们把AI做得更大更强的时候,怎样才能让它不仅能扩展,而且能持续、健康地扩展?这可能也是整个AI4S领域正在面对的核心命题。好,今天的播报就到这里,我们明天见。