Paper Morning 2026-06-26
2026-06-26
各位早上好,Paper Morning又和大家见面了。
今天想和大家聊几篇近期很有意思的论文,涉及生成模型、智能体记忆系统和视频生成这几个方向。我觉得它们共同反映了一个趋势,就是我们越来越关注如何在模型能力不断增强的同时,真正解决系统层面的工程问题。
先看第一篇DanceOPD,讲的是图像生成模型的能力统一问题。大家知道现在的文生图模型已经具备了多种能力,比如文本到图像生成、局部编辑、全局编辑等等,但这些能力之间往往存在冲突——你想做编辑的时候,生成质量会下降;局部编辑和全局编辑会互相干扰。这其实是一个很有代表性的“能力融合”难题。DanceOPD提出了一个叫做“生成场蒸馏”的框架,它的核心思想很有意思:不试图让一个模型同时具备所有能力,而是为每种能力构建一个独立的“能力场”,然后通过一种叫做“低噪声学生诱导状态”的机制来路由样本。这让我想到我们做科学计算模型时,也经常面临类似的选择——到底是做一个大而全的模型,还是针对不同任务做专门的模块化设计。
第二篇是关于Agent记忆系统的研究。这个工作很有意思,它指出了一个我们容易忽视的问题:现在评估Agent的记忆能力,主要看任务成功率,但把整个记忆系统当作黑盒。实际上一套记忆系统里有很多组件——存储、检索、更新、整合、生命周期管理——每个环节都有成本和性能的权衡。作者做了系统性的实验,发现了很多我们之前不知道的盲点,比如某些记忆模块在知识动态更新时的脆弱性。我觉得这个思路很值得借鉴,不管是我们做AI4S的实验平台,还是构建科学计算的benchmark,都应该把系统拆开来看,而不只是看最终指标。
第三篇DomainShuttle关注的是主题驱动的视频生成。它提出了一个很实际的问题:现有的方法要么追求在同一个域内保持主体特征,要么在跨域时允许主体特征灵活变化,但很难同时做好两件事。DomainShuttle的思路是让模型能够在不同域之间“穿梭”,根据具体需求动态调整保持特征和编辑灵活性之间的平衡。这个问题其实和我们训练科学领域的预训练模型有点像——我们既希望模型学到通用的物理规律,又希望它在特定任务上有足够的适应性。
第四篇MVTrack4Gen讲的是如何用多视角点跟踪来监督单目视频的新视角生成。传统方法要么依赖显式的3D重建,但重建精度有限;要么只用相机条件控制,但几何一致性不够好。这篇工作引入了多视角点跟踪作为额外的几何和运动监督信号,帮助模型更好地保持几何一致性和运动保真度。这个思路让我想到我们在做PDE求解时,如何让神经网络学到正确的物理结构——有时候直接的监督信号可能不如引入一些几何先验有效。
最后一篇The Verification Horizon非常有意思,它讨论了一个根本性的问题:验证一个解决方案是否正确,往往被认为比生成它更容易,但对于现在的Coding Agent来说,这个直觉被反转了。作者指出,我们用来验证代码的指标——不管是F1还是BLEU——都只是人类意图的代理,而意图本身是模糊的。更棘手的是,在训练过程中,优化器会不断放大代理和真正意图之间的差距,表现为Reward Hacking或者信号饱和。这篇论文没有给出完美的解决方案,但它让我意识到,在Scaling Law之外,如何设计真正有效的验证信号,可能才是决定Agent能力上限的关键。
好,今天的播报就到这里。这几篇文章看似领域不同,但都指向一个共同的主题:当模型的生成能力越来越强时,真正的挑战已经从“能不能生成”转移到“如何系统性地评估和控制生成质量”。这个问题不仅影响图像视频生成,其实验证设计和系统级评估的思路,对我们做科学计算模型也有重要的参考价值。咱们明天见。