Paper Morning 2026-04-16

各位早上好，又到了Paper Morning的时间。今天想先从一个更大的图景说起。我们一直在聊AI for Science，但最近有几篇工作很有意思，它们虽然不直接做PDE求解或物理建模，却在方法论层面悄悄靠近我们关心的问题。它们展示了一种趋势：AI系统正在从“执行单一任务”向“理解复杂世界”进化，而这个能力恰恰是科学智能体的基础。先看第一篇，OccuBench。这个工作提出了一个针对AI智能体的基准测试，覆盖了100个真实职业场景，从急诊分诊到核电站安全监控，再到海关报关。它用语言世界模型来模拟这些专业环境，解决了以往benchmark只能评测少数公开领域的问题。我感兴趣的不只是这个评测框架本身，而是它背后的思路：让智能体在模拟的专业环境中学会“推理”，这本质上和我们在科学计算中追求的“基于物理的决策”是一致的。当AI能理解急诊室的优先级逻辑、能处理核电站的安全协议，它离理解一个PDE系统的约束条件也就不远了。接下来这篇 RationalRewards 把强化学习的奖励机制推进了一层。大多数视觉生成模型用的奖励模型只给一个分数，但这篇工作让奖励模型先写出多维度的critique，再打分。他们称之为“教奖励模型学会解释自己的判断”。这个设计让我想到一个问题：我们在训练物理神经网络时，损失函数其实也是一个隐式的“奖励模型”，它告诉模型“你预测的流体场和真实差多少”。但这种单一标量反馈是否丢失了太多信息？如果我们能让损失函数学会“解释”为什么这个预测不对——比如指出这是边界层处理不当还是湍流模型失效——训练效率会不会大幅提升？这篇工作给出的训练时加推理奖励、测试时加循环迭代的框架，或许正是科学计算可以借鉴的方向。第三篇 GameWorld 提出了一个针对多模态大模型游戏智能体的评测基准。它在浏览器环境中评测智能体，要求模型同时具备视觉感知、长期规划和精确控制能力。这篇工作的评测设计很值得AI4S社区注意。它区分了两种智能体接口：一种是直接输出键盘鼠标控制的计算机使用智能体，另一种是更通用的多模态智能体。这其实对应了科学计算中两个层面的交互方式：低层是直接操作数值求解器，高层是用自然语言描述物理问题让AI理解后执行。前几天我们还在讨论物理智能体应该用什么接口，GameWorld给出的启示是：接口越接近真实物理交互，越能暴露模型的真实能力。第四篇 SpatialEvo 提出了一个自进化的三维空间推理框架。它特别有意思的地方在于，利用了三维空间推理的一个本质特性：真值可以从点云和相机姿态精确计算出来，不依赖任何模型。这使得自训练过程中不会累积模型自身的几何误差。这个思路让我想到科学计算中的一个经典难题：当我们没有足够的高质量标注数据时，自监督学习往往会在错误的方向上自我强化。SpatialEvo利用“几何决定真值”这一确定性特性破局，这和物理仿真的逻辑是相通的——只要物理定律是确定的，我们就可以用数值模拟生成可靠的训练数据。这篇工作或许为科学计算中的数据匮乏问题提供了一条新路。最后是Seedance 2.0，一个原生多模态音视频生成模型。它支持文本、图像、音频、视频四种输入模态，实现了统一的大规模架构。虽然这是视频生成的工作，但它展示的多模态融合和跨模态推理能力，指向了一个更基础的问题：真正的物理智能需要同时理解视觉、听觉、语言和时间序列。当一个模型能在视频中理解物体运动、在音频中捕捉物理过程、在文本中推理因果关系，它就具备了构建物理世界模型的基础。Seedance 2.0在这条路上前进的一步，值得我们持续关注。好，今天的播报接近尾声了。我观察到一个贯穿这些工作的共同趋势：AI系统正在从“任务执行者”向“世界模型构建者”转变。无论是智能体在专业环境中的推理、奖励模型对判断的解释、游戏智能体对闭环反馈的响应，还是空间推理对几何确定性的利用，都在指向同一个方向——构建能够理解物理世界运行规律的智能系统。这个趋势，或许比任何单一论文都更值得我们长期关注。

Paper Morning 2026-04-16

本期涉及论文