Paper Morning 2026-04-19

各位早上好，Paper Morning开播了。今天想和大家聊几篇很有意思的论文，它们表面上看起来领域各异，但从深层逻辑看，其实都在回答一个共同的问题：AI怎么才能更接近我们想要的“理解”这个世界？先说HY-World 2.0。这是一个多模态世界模型，能把一段文本或者一张图片，变成一个完整的、可导航的3D高斯 splatting场景。四步流程非常漂亮：先根据输入生成全景图，然后规划导航轨迹，接着用双目的方法扩展场景深度，最后把各个部分合成在一起。整个过程像一个智能体在探索未知空间，一步步把二维信息“撑开”成三维结构。这件事的意义不只是视觉生成本身，而在于它展示了一种构建世界模型的可能路径——不是直接预测像素，而是先建模空间结构，再填充细节。这和我们做科学模拟的思路是相通的：我们需要的是一个能理解物理规律、预测演化的模型，而不只是生成好看图片的工厂。接着说一篇视觉生成方向的论文，RationalRewards。它提出了一个很本质的问题：现在的reward model（奖励模型）总是给个分数，但这个分数怎么来的，完全说不清。作者说，既然人类做判断时会有推理过程，那机器是不是也可以这样？于是他们让奖励模型先写出多维度的critique（批评），然后再打分。更妙的是，测试时还能用“生成-批评-改进”的循环，把critique变成prompt的改进方向，让输出质量不断提升。这种思路很像是科学发现的迭代过程：提出假设、验证、得到反馈、修正、再验证。对我们做AI4S的人来说，这个训练范式也许能迁移到科学问题的迭代求解上。然后是一篇关于评估的论文，DR³-Eval。它针对的是Deep Research Agent（深度研究智能体）的评估难题。这种智能体要完成复杂的长期任务，涉及规划、检索、多模态理解、写报告，但评估起来非常困难，因为网络环境动态变化，任务定义也常常模糊。作者构建了一个基于真实用户材料的benchmark，配了静态的研究语料库来模拟开放网络的复杂度，同时保证可验证性。我觉得这对我们AI4S社区特别有启发。我们一直在说缺少好的科学AI benchmark，而一个好的benchmark几乎决定了领域的发展方向。DR³-Eval的评估维度——信息召回、准确性、引用覆盖率——其实也揭示了做复杂科研任务的本质要求。再说一篇Memory Transfer Learning，讲的是编码智能体怎么在不同任务领域之间迁移记忆。作者发现，用异构领域的统一记忆池，跨领域迁移能提升平均性能3.7%，而且主要是靠迁移“元知识”——比如验证套路、调试思路——而不是具体的代码片段。这太有意思了。我们做科学研究不也是这样吗？很多时候解决问题的思路、验证假设的方法，是可以跨领域复用的。这启示我们：构建通用科学智能体，可能不在于让模型记住多少特定任务的解法，而在于让它学会怎么学习、怎么验证。最后是Re2Pix，一个层级化的视频预测框架。它把预测未来帧这件事拆成两步：先用冻结的视觉基础模型的特征空间预测语义表征，然后用latent diffusion model根据这些表征去生成像素。这样做的好处是，模型可以先专注于理解场景动态，再处理视觉细节。这让我想到，其实科学模拟也是这个逻辑——先捕捉物理过程的本质规律，再用高精度方法去求解细节。分层建模、语义先行的思路，可能是通往更可靠模拟的一条路。今天的论文看下来，有一个趋势很明显：不管是世界模型、生成质量、研究智能体还是视频预测，大家都在往一个方向走——从单纯的学习数据中的模式，转向构建能够理解、推理、持续演进的系统。层级化的处理、反馈循环、跨领域迁移，这些不是技巧上的花哨，而是认知范式在变。AI正在从“拟合”走向“理解”，这大概是我们这个领域最让人兴奋的事情。祝大家科研顺利。

Paper Morning 2026-04-19

本期涉及论文