Paper Morning 2026-04-17

各位早上好，Paper Morning又和大家见面了。今天想先从一个更大的图景说起。大家有没有注意到，最近AI圈有个很有意思的趋势，不管是什么任务，都在往两个方向卷：一是让模型在推理的时候多“想一会儿”，也就是test-time compute；二是让不同任务、不同模态之间的知识能够更好地迁移。今天这几篇论文恰好都折射出这个趋势，我们一起来看看。先说HY-World 2.0，这是一个多模态世界模型，能从文本提示、单张图片甚至视频生成完整的3D场景。它采用了四阶段流水线，先生成全景图，然后做路径规划，接着做场景扩展，最后做场景合成。核心亮点是它产出的是3D Gaussian Splatting，这是一种新颖的辐射场表示方法，比传统的NeRF更高效。对于我们AI4S社区来说，这篇工作真正值得关注的地方在于，它展示了如何把“生成”从像素空间提升到结构化的3D表示空间。你可以想象，未来在材料设计或者流体模拟中，我们或许也能先用语言描述一个物理场景，然后让模型直接生成一个可交互的3D物理场。当然，现在的HY-World 2.0主要是视觉导向，但它打开的思路是通用的。接下来看RationalRewards，这篇工作很有意思，它给奖励模型赋予了“推理能力”。传统的奖励模型通常直接给一个分数，但这篇工作让模型先写出多维度的critique，然后再打分。更关键的是，这个带推理的奖励模型在训练时能提供更细粒度的信号，在测试时又能通过“生成-批判-改进”的循环来优化输出，而不需要再更新模型参数。这本质上就是把test-time compute的思想用到了视觉生成里。联系到我们关心的科学计算，我觉得这个思路很有启发性：以后或许可以训练一个专门给物理模拟结果“打分”的critic，让它在推理阶段反复审视输出，指出哪里不符合物理规律，然后引导模型做修正。这种“会批判的裁判”在PDE求解或者分子设计里可能会有意想不到的价值。然后是Re2Pix，它做的是视频预测，但方法很独特。它不直接预测未来的RGB帧，而是分两步走：先用冻结的视觉基础模型预测未来的语义表示，然后用这个表示来引导一个扩散模型生成画面。这其实是一种层次化的预测思路，先抓住场景结构的演化规律，再处理视觉细节。这让我想到，在气候模拟或者流体预测里，我们是不是也可以借鉴这个思路？先让模型学会预测物理量的“结构”，比如速度场的相干结构，然后再渲染出更精细的视觉化结果。这种解耦可能会让预测更稳定，也更符合物理。第四篇关于记忆迁移的工作很有意思。它研究的是编码智能体如何跨任务域使用记忆。传统方法的记忆只用在同类任务里，但这篇工作发现，如果把不同任务域的记忆放在一个统一的池子里，智能体可以从中学到“元知识”，比如验证程序的正则。它的实验表明，这种跨域记忆能让性能提升3.7%。这个数字看起来不大，但背后的洞见很重要：不同编码任务之间共享的其实是“如何验证代码正确性”这种高阶能力，而不是具体的代码片段。类似的道理也许适用于科学计算：不同物理问题之间能否共享“如何判断一个解是否合理”的元知识？这可能是未来构建科学基础模型的一个思路。最后一篇PreRL很有意思，它讨论了一个根本性的问题：强化学习微调本质上是在优化条件概率P(y|x)，但这个优化受到基础模型本身输出分布的制约。PreRL提出直接在预训练空间优化边缘概率P(y)，通过在线更新的方式让模型在预训练阶段就获得更强的推理能力。它从理论上证明了P(y)和P(y|x)的梯度是高度对齐的，这意味着在预训练阶段加入奖励信号能有效提升推理能力。这篇工作对于我们理解foundation model的 scaling law 有重要启示：也许以后训练科学基础模型时，可以在预训练阶段就引入物理规律作为奖励，让模型“天生”就具备更好的物理直觉。好，我们来总结一下。今天这几篇论文虽然主题各异，但都指向同一个趋势：AI模型正在从“被动执行指令”向“主动推理和自我改进”演进。不管是世界模型里的层次化生成，还是带推理的奖励模型，亦或是在预训练空间做强化学习，大家都在想办法让模型在推理阶段有更多的计算资源投入，同时让不同任务之间的知识迁移变得更高效。这和我们AI4S社区关心的问题其实高度相关：当我们构建PDE基础模型时，如何让它具备跨物理域的推理能力？如何让它学会在求解过程中自我纠错？这些可能是下一阶段的关键问题。早上先聊到这里，我们明天继续。

Paper Morning 2026-04-17

本期涉及论文