Paper Morning 2026-04-18

各位早上好，周末的Paper Morning如约而至。今天想先从一个更大的图景开始聊。我们都知道，大语言模型带来了一个重要的范式转变，就是从单纯的“推理”走向“推理加行动”。但最近越来越多的工作开始把这个思路延伸到更广的领域，不只是文字，而是延伸到物理世界、视觉世界，乃至于科研本身。今天的几篇论文，正好从不同角度折射出了这个趋势。先来看HY-World 2.0，这是一个多模态世界模型框架。它的核心贡献是：给定文本提示、单张图片、多视角图片甚至视频，它能够生成可导航的三维高斯溅射场景。这个工作有意思的地方不在于它又能从文本生成三维了，而在于它把整个生成过程拆成了四个阶段：全景图生成、轨迹规划、世界扩展和世界合成。听起来很像我们构建物理仿真系统的思路——先建模环境结构，再规划交互方式，最后渲染细节。这其实反映了一个趋势：世界模型不再只是预测下一帧像素，而是开始具备“空间推理”和“规划”的能力。当模型能够理解“去哪里”和“怎么去”的时候，它就更接近我们所说的物理智能了。如果说HY-World是在物理空间里构建世界模型，那接下来这篇 RationalRewards 就是在视觉生成的空间里，重新定义“评估”这件事。我们知道，现在很多文生图模型会用reward model来引导生成，但传统做法是把人类的偏好直接压缩成一个分数，中间没有任何解释。这篇工作的核心发现是：如果让reward model先写出多维度的、explicit的critique，然后再打分，效果会完全不一样。它把这个思路叫作“推理奖励”，有意思的是，这个推理不仅在训练时能提供更细粒度的监督信号，更关键的是，在测试时可以通过“生成-批评-改进”的循环，让模型自己迭代优化输出，而不需要再更新参数。这其实就是test-time compute在视觉生成里的体现。我们以前总说scaling law是扩大数据规模，但test-time的推理计算同样可以scaling，这篇工作给了一个很好的例证。顺着这个思路，Re2Pix这篇论文提出了一种分层视频预测框架。它做了一件很巧妙的事：不是直接预测未来帧的像素，而是先用冻结的视觉基础模型提取语义表征，在特征空间里预测未来的场景结构，然后再用latent diffusion model根据预测的表征来渲染像素。这样做的好处是什么呢？它把“理解场景动态”和“生成视觉细节”两个任务解耦了，让模型各司其职。这让我想到operator learning里的思路——我们不是直接拟合 PDE的解，而是先学习算子，再生成解。Re2Pix本质上也是在学习一个从语义表征到像素的算子，只不过这个算子是通过diffusion model实现的。好了，前面三篇都聚焦在生成和建模。现在让我们从更抽象的层面来看一个问题：如果模型需要在不同任务之间积累经验，那这种经验怎么迁移？Memory Transfer Learning这篇工作就研究了编码智能体的记忆跨领域迁移。他们发现，当把不同领域的coding任务放在一个统一的记忆池里时，跨领域的记忆居然能提升平均性能3.7%。更有趣的是，提升主要不是来自具体代码片段的复用，而是来自“元知识”的迁移，比如验证 routines 这样的抽象经验。这其实呼应了foundation model的核心思想：学习可迁移的抽象表示，而不是记忆具体的输入输出对。现在很多人在讨论foundation model怎么用到科学计算上，这篇工作提供了一个很好的视角——我们要迁移的，应该是什么样的知识？最后一篇DR³-Eval，关注的是deep research agent的评估问题。这类agent要完成复杂的、长周期的研究任务，涉及规划、检索、多模态理解和报告生成，但怎么评估它们一直是个难题，因为网络环境动态变化，任务定义也很模糊。这篇工作提出了一个基于真实用户材料的benchmark，配以静态的研究语料库来模拟开放网络的复杂性，同时保证可验证性。它还引入了一个多维评估框架，衡量信息召回、事实准确性、引用覆盖率等等。这个工作的价值在于，它让我们可以系统地比较不同的研究agent，也为将来更大规模的agent评估奠定了基础。总结一下今天的观察。这一组论文其实在讲同一个故事：AI正在从被动的预测模型，走向主动的推理 agent。不只是文字领域的reasoning agent，也包括物理世界的planning agent、视觉生成里的critique-refine agent，以及能够跨任务积累经验的coding agent。这背后还有一个共同的技術线索，就是foundation model提供的语义表征，使得在更高抽象层次上进行推理、规划和迁移成为可能。当模型能够在测试时进行推理计算，能够跨领域迁移元知识，能够规划多步骤的执行路径，我们其实已经在构建一种更通用的智能能力了。这种能力迁移到科学计算里，会怎么改变我们做研究的方式？这是值得持续关注的问题。

Paper Morning 2026-04-18

本期涉及论文