Paper Morning 2026-05-11

各位早上好，Paper Morning又和大家见面了。今天想先从一个大家可能都关心的问题聊起：这两年我们见证了扩散模型从实验室走向千行百业，但当我们把模型做得越来越大、越来越深的时候，是否真的理解了训练过程中会发生什么？第一篇论文就给了我们一个值得警惕的答案。来自Pengqi Lu的工作研究了深层 Diffusion Transformer 的训练稳定性问题。他们发现，当把DiT扩展到数百层时，网络会悄然进入一种“沉默”状态，论文称之为Mean Mode Screaming。听起来有点戏剧化，但机制本身很有意思：网络在训练表面稳定的情况下，梯度中会累积一种“均值相干”的反向冲击，它打开深层残差分支，让整个网络的表示趋于同质化，最终抑制了token之间的差异化表达。更关键的是，这个过程不是突然发生的，而是Softmax Jacobian的零空间在值同质化后逐步抑制注意力logit梯度导致的。作者通过梯度的精确分解验证了这一机制。这项工作给我们的启示很清楚：扩展不只是堆层数，架构中那些看似优雅的设计——比如残差连接、Softmax——在极端深度下可能成为隐蔽的脆弱点。对我们做科学计算的人来说，这也提醒我们，当把基础模型往大做的时候，不能只关注loss下降，结构性的失效模式可能在暗中积累。如果说上一篇文章是给扩散模型的大模型梦泼了点冷水，那接下来这篇倒是给了一个很务实的解决方案思路。 Flow-OPD这篇工作关注的是流匹配模型在多任务对齐中的两个经典难题：标量奖励带来的稀疏性，以及多目标优化时的梯度干扰。作者借鉴了大语言模型社区的On-Policy Distillation思想，提出了两阶段对齐策略：先让每个专家模型在单一奖励下充分发育，达到各自性能的天花板，然后再做蒸馏整合。这其实有点像是“先让专精的匠人各自打磨手艺，再让他们坐下来互相学习”。值得注意的是，他们用的GRPO微调方式，在图像生成领域可能不如在NLP中那么常见，这种跨领域的迁移本身就很有意思。它提示我们，RLHF的很多方法论其实有更广的适用面，不一定非要是自回归的文本模型才行。聊完模型训练的方法论，我们来看看数据层面最近有什么有意思的进展。 HumanNet这个数据集很有意思，它收集了一百万小时的人类中心视频，涵盖第一人称和第三人称视角，包含细致的人体动作、物体交互和工具使用场景。作者不仅仅提供原始视频，还配套了动作描述、手部身体信号等丰富的标注。这让我想到一个更大的图景：机器人领域一直在说缺少大规模的物理交互数据，而现有的视频数据要么是第三人称的泛化场景，要么缺乏精确的动作标注。HumanNet试图同时解决规模和细粒度的问题，这可能为未来的具身智能研究提供一个更扎实的数据基座。不过我也在想，这种数据构建思路是否也适用于科学计算？毕竟我们同样缺乏大规模的物理过程观测数据。接下来这个工作把我们带到了AI Agent的前沿。 HyperEyes针对的是多模态搜索智能体的效率问题。作者指出，现有的智能体处理多个目标时是串行的，这会导致大量冗余的交互轮次。他们的思路很直接：让智能体在同一个回合内并行发出多个查询，而不是一个一个来。为了做到这一点，他们设计了融合视觉定位和检索的原子动作，并显式地把推理效率当作训练目标。这里面有一个我很认同的理念：效率不应该只是事后优化的指标，而应该是一等公民，在训练阶段就纳入考量。这对科学计算中的智能体设计也有启发——我们构建文献检索、代码生成智能体时，是否也应该把并发查询的能力和效率纳入训练目标？最后回到今天的第一篇论文，MACE-Dance。这是音乐驱动舞蹈视频生成的工作，用级联的Mixture-of-Experts架构分别处理运动生成和外观渲染。运动专家负责从音乐到三维动作的映射，同时兼顾运动学的合理性和艺术表现力；外观专家则处理视频级的视觉效果。这种分而治之的思路在复杂任务中很常见，但把它用在音乐到视频的端到端生成上，还是能看出作者对任务难点的清晰认知——运动和外观确实是两个不同性质的问题，强行用一个模型同时搞定可能两边都做不好。好，让我们回到今天的整体观察。我注意到一个有趣的脉络：这几篇文章虽然主题分散，但都指向同一个关切——如何在大规模、高复杂度的AI系统中保持可控和高效。无论是深层DiT的稳定性、流匹配的多任务学习、数据效率优先的智能体训练，还是基础模型的数据基建，这些工作都在回答一个共同的问题：当我们把AI做得更大更强的时候，怎样才能让它不仅能扩展，而且能持续、健康地扩展？这可能也是整个AI4S领域正在面对的核心命题。好，今天的播报就到这里，我们明天见。

Paper Morning 2026-05-11

本期涉及论文