Paper Morning 2026-06-26

各位早上好，Paper Morning又和大家见面了。今天想和大家聊几篇近期很有意思的论文，涉及生成模型、智能体记忆系统和视频生成这几个方向。我觉得它们共同反映了一个趋势，就是我们越来越关注如何在模型能力不断增强的同时，真正解决系统层面的工程问题。先看第一篇DanceOPD，讲的是图像生成模型的能力统一问题。大家知道现在的文生图模型已经具备了多种能力，比如文本到图像生成、局部编辑、全局编辑等等，但这些能力之间往往存在冲突——你想做编辑的时候，生成质量会下降；局部编辑和全局编辑会互相干扰。这其实是一个很有代表性的“能力融合”难题。DanceOPD提出了一个叫做“生成场蒸馏”的框架，它的核心思想很有意思：不试图让一个模型同时具备所有能力，而是为每种能力构建一个独立的“能力场”，然后通过一种叫做“低噪声学生诱导状态”的机制来路由样本。这让我想到我们做科学计算模型时，也经常面临类似的选择——到底是做一个大而全的模型，还是针对不同任务做专门的模块化设计。第二篇是关于Agent记忆系统的研究。这个工作很有意思，它指出了一个我们容易忽视的问题：现在评估Agent的记忆能力，主要看任务成功率，但把整个记忆系统当作黑盒。实际上一套记忆系统里有很多组件——存储、检索、更新、整合、生命周期管理——每个环节都有成本和性能的权衡。作者做了系统性的实验，发现了很多我们之前不知道的盲点，比如某些记忆模块在知识动态更新时的脆弱性。我觉得这个思路很值得借鉴，不管是我们做AI4S的实验平台，还是构建科学计算的benchmark，都应该把系统拆开来看，而不只是看最终指标。第三篇DomainShuttle关注的是主题驱动的视频生成。它提出了一个很实际的问题：现有的方法要么追求在同一个域内保持主体特征，要么在跨域时允许主体特征灵活变化，但很难同时做好两件事。DomainShuttle的思路是让模型能够在不同域之间“穿梭”，根据具体需求动态调整保持特征和编辑灵活性之间的平衡。这个问题其实和我们训练科学领域的预训练模型有点像——我们既希望模型学到通用的物理规律，又希望它在特定任务上有足够的适应性。第四篇MVTrack4Gen讲的是如何用多视角点跟踪来监督单目视频的新视角生成。传统方法要么依赖显式的3D重建，但重建精度有限；要么只用相机条件控制，但几何一致性不够好。这篇工作引入了多视角点跟踪作为额外的几何和运动监督信号，帮助模型更好地保持几何一致性和运动保真度。这个思路让我想到我们在做PDE求解时，如何让神经网络学到正确的物理结构——有时候直接的监督信号可能不如引入一些几何先验有效。最后一篇The Verification Horizon非常有意思，它讨论了一个根本性的问题：验证一个解决方案是否正确，往往被认为比生成它更容易，但对于现在的Coding Agent来说，这个直觉被反转了。作者指出，我们用来验证代码的指标——不管是F1还是BLEU——都只是人类意图的代理，而意图本身是模糊的。更棘手的是，在训练过程中，优化器会不断放大代理和真正意图之间的差距，表现为Reward Hacking或者信号饱和。这篇论文没有给出完美的解决方案，但它让我意识到，在Scaling Law之外，如何设计真正有效的验证信号，可能才是决定Agent能力上限的关键。好，今天的播报就到这里。这几篇文章看似领域不同，但都指向一个共同的主题：当模型的生成能力越来越强时，真正的挑战已经从“能不能生成”转移到“如何系统性地评估和控制生成质量”。这个问题不仅影响图像视频生成，其实验证设计和系统级评估的思路，对我们做科学计算模型也有重要的参考价值。咱们明天见。

Paper Morning 2026-06-26

本期涉及论文