Paper Morning 2026-04-17

2026-04-17

各位早上好,Paper Morning又和大家见面了。 今天想先从一个更大的图景说起。大家有没有注意到,最近AI圈有个很有意思的趋势,不管是什么任务,都在往两个方向卷:一是让模型在推理的时候多“想一会儿”,也就是test-time compute;二是让不同任务、不同模态之间的知识能够更好地迁移。今天这几篇论文恰好都折射出这个趋势,我们一起来看看。 先说HY-World 2.0,这是一个多模态世界模型,能从文本提示、单张图片甚至视频生成完整的3D场景。它采用了四阶段流水线,先生成全景图,然后做路径规划,接着做场景扩展,最后做场景合成。核心亮点是它产出的是3D Gaussian Splatting,这是一种新颖的辐射场表示方法,比传统的NeRF更高效。对于我们AI4S社区来说,这篇工作真正值得关注的地方在于,它展示了如何把“生成”从像素空间提升到结构化的3D表示空间。你可以想象,未来在材料设计或者流体模拟中,我们或许也能先用语言描述一个物理场景,然后让模型直接生成一个可交互的3D物理场。当然,现在的HY-World 2.0主要是视觉导向,但它打开的思路是通用的。 接下来看RationalRewards,这篇工作很有意思,它给奖励模型赋予了“推理能力”。传统的奖励模型通常直接给一个分数,但这篇工作让模型先写出多维度的critique,然后再打分。更关键的是,这个带推理的奖励模型在训练时能提供更细粒度的信号,在测试时又能通过“生成-批判-改进”的循环来优化输出,而不需要再更新模型参数。这本质上就是把test-time compute的思想用到了视觉生成里。联系到我们关心的科学计算,我觉得这个思路很有启发性:以后或许可以训练一个专门给物理模拟结果“打分”的critic,让它在推理阶段反复审视输出,指出哪里不符合物理规律,然后引导模型做修正。这种“会批判的裁判”在PDE求解或者分子设计里可能会有意想不到的价值。 然后是Re2Pix,它做的是视频预测,但方法很独特。它不直接预测未来的RGB帧,而是分两步走:先用冻结的视觉基础模型预测未来的语义表示,然后用这个表示来引导一个扩散模型生成画面。这其实是一种层次化的预测思路,先抓住场景结构的演化规律,再处理视觉细节。这让我想到,在气候模拟或者流体预测里,我们是不是也可以借鉴这个思路?先让模型学会预测物理量的“结构”,比如速度场的相干结构,然后再渲染出更精细的视觉化结果。这种解耦可能会让预测更稳定,也更符合物理。 第四篇关于记忆迁移的工作很有意思。它研究的是编码智能体如何跨任务域使用记忆。传统方法的记忆只用在同类任务里,但这篇工作发现,如果把不同任务域的记忆放在一个统一的池子里,智能体可以从中学到“元知识”,比如验证程序的正则。它的实验表明,这种跨域记忆能让性能提升3.7%。这个数字看起来不大,但背后的洞见很重要:不同编码任务之间共享的其实是“如何验证代码正确性”这种高阶能力,而不是具体的代码片段。类似的道理也许适用于科学计算:不同物理问题之间能否共享“如何判断一个解是否合理”的元知识?这可能是未来构建科学基础模型的一个思路。 最后一篇PreRL很有意思,它讨论了一个根本性的问题:强化学习微调本质上是在优化条件概率P(y|x),但这个优化受到基础模型本身输出分布的制约。PreRL提出直接在预训练空间优化边缘概率P(y),通过在线更新的方式让模型在预训练阶段就获得更强的推理能力。它从理论上证明了P(y)和P(y|x)的梯度是高度对齐的,这意味着在预训练阶段加入奖励信号能有效提升推理能力。这篇工作对于我们理解foundation model的 scaling law 有重要启示:也许以后训练科学基础模型时,可以在预训练阶段就引入物理规律作为奖励,让模型“天生”就具备更好的物理直觉。 好,我们来总结一下。今天这几篇论文虽然主题各异,但都指向同一个趋势:AI模型正在从“被动执行指令”向“主动推理和自我改进”演进。不管是世界模型里的层次化生成,还是带推理的奖励模型,亦或是在预训练空间做强化学习,大家都在想办法让模型在推理阶段有更多的计算资源投入,同时让不同任务之间的知识迁移变得更高效。这和我们AI4S社区关心的问题其实高度相关:当我们构建PDE基础模型时,如何让它具备跨物理域的推理能力?如何让它学会在求解过程中自我纠错?这些可能是下一阶段的关键问题。早上先聊到这里,我们明天继续。

本期涉及论文