Paper Morning 2026-04-18

2026-04-18

各位早上好,周末的Paper Morning如约而至。 今天想先从一个更大的图景开始聊。我们都知道,大语言模型带来了一个重要的范式转变,就是从单纯的“推理”走向“推理加行动”。但最近越来越多的工作开始把这个思路延伸到更广的领域,不只是文字,而是延伸到物理世界、视觉世界,乃至于科研本身。今天的几篇论文,正好从不同角度折射出了这个趋势。 先来看HY-World 2.0,这是一个多模态世界模型框架。它的核心贡献是:给定文本提示、单张图片、多视角图片甚至视频,它能够生成可导航的三维高斯溅射场景。这个工作有意思的地方不在于它又能从文本生成三维了,而在于它把整个生成过程拆成了四个阶段:全景图生成、轨迹规划、世界扩展和世界合成。听起来很像我们构建物理仿真系统的思路——先建模环境结构,再规划交互方式,最后渲染细节。这其实反映了一个趋势:世界模型不再只是预测下一帧像素,而是开始具备“空间推理”和“规划”的能力。当模型能够理解“去哪里”和“怎么去”的时候,它就更接近我们所说的物理智能了。 如果说HY-World是在物理空间里构建世界模型,那接下来这篇 RationalRewards 就是在视觉生成的空间里,重新定义“评估”这件事。我们知道,现在很多文生图模型会用reward model来引导生成,但传统做法是把人类的偏好直接压缩成一个分数,中间没有任何解释。这篇工作的核心发现是:如果让reward model先写出多维度的、explicit的critique,然后再打分,效果会完全不一样。它把这个思路叫作“推理奖励”,有意思的是,这个推理不仅在训练时能提供更细粒度的监督信号,更关键的是,在测试时可以通过“生成-批评-改进”的循环,让模型自己迭代优化输出,而不需要再更新参数。这其实就是test-time compute在视觉生成里的体现。我们以前总说scaling law是扩大数据规模,但test-time的推理计算同样可以scaling,这篇工作给了一个很好的例证。 顺着这个思路,Re2Pix这篇论文提出了一种分层视频预测框架。它做了一件很巧妙的事:不是直接预测未来帧的像素,而是先用冻结的视觉基础模型提取语义表征,在特征空间里预测未来的场景结构,然后再用latent diffusion model根据预测的表征来渲染像素。这样做的好处是什么呢?它把“理解场景动态”和“生成视觉细节”两个任务解耦了,让模型各司其职。这让我想到operator learning里的思路——我们不是直接拟合 PDE的解,而是先学习算子,再生成解。Re2Pix本质上也是在学习一个从语义表征到像素的算子,只不过这个算子是通过diffusion model实现的。 好了,前面三篇都聚焦在生成和建模。现在让我们从更抽象的层面来看一个问题:如果模型需要在不同任务之间积累经验,那这种经验怎么迁移?Memory Transfer Learning这篇工作就研究了编码智能体的记忆跨领域迁移。他们发现,当把不同领域的coding任务放在一个统一的记忆池里时,跨领域的记忆居然能提升平均性能3.7%。更有趣的是,提升主要不是来自具体代码片段的复用,而是来自“元知识”的迁移,比如验证 routines 这样的抽象经验。这其实呼应了foundation model的核心思想:学习可迁移的抽象表示,而不是记忆具体的输入输出对。现在很多人在讨论foundation model怎么用到科学计算上,这篇工作提供了一个很好的视角——我们要迁移的,应该是什么样的知识? 最后一篇DR³-Eval,关注的是deep research agent的评估问题。这类agent要完成复杂的、长周期的研究任务,涉及规划、检索、多模态理解和报告生成,但怎么评估它们一直是个难题,因为网络环境动态变化,任务定义也很模糊。这篇工作提出了一个基于真实用户材料的benchmark,配以静态的研究语料库来模拟开放网络的复杂性,同时保证可验证性。它还引入了一个多维评估框架,衡量信息召回、事实准确性、引用覆盖率等等。这个工作的价值在于,它让我们可以系统地比较不同的研究agent,也为将来更大规模的agent评估奠定了基础。 总结一下今天的观察。这一组论文其实在讲同一个故事:AI正在从被动的预测模型,走向主动的推理 agent。不只是文字领域的reasoning agent,也包括物理世界的planning agent、视觉生成里的critique-refine agent,以及能够跨任务积累经验的coding agent。这背后还有一个共同的技術线索,就是foundation model提供的语义表征,使得在更高抽象层次上进行推理、规划和迁移成为可能。当模型能够在测试时进行推理计算,能够跨领域迁移元知识,能够规划多步骤的执行路径,我们其实已经在构建一种更通用的智能能力了。这种能力迁移到科学计算里,会怎么改变我们做研究的方式?这是值得持续关注的问题。

本期涉及论文