Paper Morning 2026-04-19

2026-04-19

各位早上好,Paper Morning开播了。今天想和大家聊几篇很有意思的论文,它们表面上看起来领域各异,但从深层逻辑看,其实都在回答一个共同的问题:AI怎么才能更接近我们想要的“理解”这个世界? 先说HY-World 2.0。这是一个多模态世界模型,能把一段文本或者一张图片,变成一个完整的、可导航的3D高斯 splatting场景。四步流程非常漂亮:先根据输入生成全景图,然后规划导航轨迹,接着用双目的方法扩展场景深度,最后把各个部分合成在一起。整个过程像一个智能体在探索未知空间,一步步把二维信息“撑开”成三维结构。这件事的意义不只是视觉生成本身,而在于它展示了一种构建世界模型的可能路径——不是直接预测像素,而是先建模空间结构,再填充细节。这和我们做科学模拟的思路是相通的:我们需要的是一个能理解物理规律、预测演化的模型,而不只是生成好看图片的工厂。 接着说一篇视觉生成方向的论文,RationalRewards。它提出了一个很本质的问题:现在的reward model(奖励模型)总是给个分数,但这个分数怎么来的,完全说不清。作者说,既然人类做判断时会有推理过程,那机器是不是也可以这样?于是他们让奖励模型先写出多维度的critique(批评),然后再打分。更妙的是,测试时还能用“生成-批评-改进”的循环,把critique变成prompt的改进方向,让输出质量不断提升。这种思路很像是科学发现的迭代过程:提出假设、验证、得到反馈、修正、再验证。对我们做AI4S的人来说,这个训练范式也许能迁移到科学问题的迭代求解上。 然后是一篇关于评估的论文,DR³-Eval。它针对的是Deep Research Agent(深度研究智能体)的评估难题。这种智能体要完成复杂的长期任务,涉及规划、检索、多模态理解、写报告,但评估起来非常困难,因为网络环境动态变化,任务定义也常常模糊。作者构建了一个基于真实用户材料的benchmark,配了静态的研究语料库来模拟开放网络的复杂度,同时保证可验证性。我觉得这对我们AI4S社区特别有启发。我们一直在说缺少好的科学AI benchmark,而一个好的benchmark几乎决定了领域的发展方向。DR³-Eval的评估维度——信息召回、准确性、引用覆盖率——其实也揭示了做复杂科研任务的本质要求。 再说一篇Memory Transfer Learning,讲的是编码智能体怎么在不同任务领域之间迁移记忆。作者发现,用异构领域的统一记忆池,跨领域迁移能提升平均性能3.7%,而且主要是靠迁移“元知识”——比如验证套路、调试思路——而不是具体的代码片段。这太有意思了。我们做科学研究不也是这样吗?很多时候解决问题的思路、验证假设的方法,是可以跨领域复用的。这启示我们:构建通用科学智能体,可能不在于让模型记住多少特定任务的解法,而在于让它学会怎么学习、怎么验证。 最后是Re2Pix,一个层级化的视频预测框架。它把预测未来帧这件事拆成两步:先用冻结的视觉基础模型的特征空间预测语义表征,然后用latent diffusion model根据这些表征去生成像素。这样做的好处是,模型可以先专注于理解场景动态,再处理视觉细节。这让我想到,其实科学模拟也是这个逻辑——先捕捉物理过程的本质规律,再用高精度方法去求解细节。分层建模、语义先行的思路,可能是通往更可靠模拟的一条路。 今天的论文看下来,有一个趋势很明显:不管是世界模型、生成质量、研究智能体还是视频预测,大家都在往一个方向走——从单纯的学习数据中的模式,转向构建能够理解、推理、持续演进的系统。层级化的处理、反馈循环、跨领域迁移,这些不是技巧上的花哨,而是认知范式在变。AI正在从“拟合”走向“理解”,这大概是我们这个领域最让人兴奋的事情。祝大家科研顺利。

本期涉及论文