Paper Morning 2026-06-27
2026-06-27
各位早上好,又到了周末的Paper Morning时间。
今天想先从一篇机器人控制的论文聊起。Siyin Wang他们提出的In-Context World Modeling,解决的是一个很本质的问题:现在的视觉语言动作模型,在训练时见到的总是固定的相机视角或者固定的机器人形态,一旦换个环境,它的性能就塌了。传统做法是收集大量新数据再微调,但成本太高。他们把系统识别本身变成了一种in-context adaptation问题——让机器人通过一小段自己生成的、跟任务无关的交互历史,就能推断出关键的系统参数。这有点像是给机器人配备了一面“自我认知的镜子”,它不需要重新训练,只需要“看”一会儿就能理解自己当前的身体状态。这个思路其实和咱们AI4S里强调的“模型要有领域自适应能力”是一脉相承的。
聊完机器人,咱们把视角转到生成模型那边。Wei Zhou他们的DanceOPD处理的是一个很实际的问题:现在的图像生成模型要同时具备文生图、局部编辑、全局编辑等多种能力,但这些能力之间其实是互相干扰的——加强编辑能力,文生图质量就下降;局部和全局编辑也会掐架。他们的做法很有意思,把每种能力定义成一个速度场,然后用一种on-policy的路由机制,让每个样本去调用最适合的那个能力场。这就好比一个交响乐团,不同乐器不是同时演奏,而是根据乐谱需要动态调配。我觉得这个思路对于咱们训练PDE求解器也有启发:当一个模型需要同时捕获不同物理机制的时候,也许不应该让所有机制一直在“竞争资源”,而是让它们在需要时各司其职。
接下来这篇热度很高的论文,是关于LLM agent的内存系统。Wei Zhou他们做了一个很系统性的研究,把agent memory从简单的检索增强,扩展到persistent storage、retrieval、update、consolidation、dynamic governance这五个维度。他们发现现有的评估方式只看最终任务成功率,其实掩盖了很多系统层面的问题,比如运营成本、不同内存模块之间的架构权衡、知识动态更新时的鲁棒性等等。这让我想到咱们科学计算里的数据管理——同样一套实验数据,既要能快速检索,又要能长期存档,还要能处理新数据的不断涌入,如何在这些需求之间做trade-off,其实是一个非常工程但又极其关键的问题。
然后是视频生成领域的DomainShuttle。Nan Chen他们关注的是一个很有挑战性的场景:开放域主体驱动的视频生成,既要保持主体的核心特征不变,又要允许主体无关的属性跟着文本提示灵活变化。现有方法要么过于保守,只能在训练见过的域内保持高保真度;要么过于激进,一开放就丢失主体特征。他们的方案是让模型能在“域内”和“跨域”两种模式之间自由切换,就像一个穿梭于不同世界的旅行者。这其实呼应了咱们AI4S里的一个核心诉求:一个好的物理模拟模型,既要在已知工况下精确可靠,又要在未见过的工况下保持合理的泛化。
最后聊聊这篇关于编码agent奖励验证的论文。Binghai Wang他们提出了一个很犀利的观点:经典直觉里“验证比生成容易”正在被颠覆——现在生成复杂代码已经不是瓶颈了,真正困难的是可靠地验证代码是否实现了人的意图。而且这个验证难题是双重的:人的意图本身往往就是模糊的,而且在模型训练过程中,优化器会不断放大“验证代理”和“真正意图”之间的差距,导致reward hacking或者signal saturation。这对于咱们构建科学计算的评估体系也很有警示意义:当我们在训练一个PDE求解器的时候,用什么指标来衡量它的“好”?仅仅是L2误差够吗?会不会也存在类似的“验证代理”和“真实目标”之间的gap?
好,咱们把这五篇论文串起来看,会发现一个共同的脉络:今天的AI系统正在从“静态能力”走向“动态适应”。机器人要能自适应新环境,生成模型要能灵活组合多种能力,agent要有完整的记忆生命周期,视频生成要在不同域之间穿梭,甚至验证机制也要能跟上意图的演化。这其实呼应了咱们AI4S领域正在发生的事——咱们不再满足于一个在固定数据集上表现最好的模型,而是追求一个能够在变化的环境中持续学习、适应、可靠运行的系统。这个趋势值得咱们在接下来一段时间里持续关注。