Paper Morning 2026-04-12

各位早上好，周末的Paper Morning又和大家见面了。今天想聊一个特别的话题：我们正在见证AI从“理解符号”走向“理解物理”的关键转折。先来看一篇挺有意思的工作。NUMINA解决的是一个看似简单但实际很本质的问题：现在的text-to-video模型，你告诉它“天空有五只鸟”，它可能给你生成三只，也可能给你生成七只，就是很难精确。这个工作的核心贡献是提出了一个训练-free的识别-引导框架，通过选择区分性的self-attention和cross-attention头，推导出可计数的潜在布局，然后保守地精炼这个布局并调制cross-attention来引导重新生成。我看到他们在新引入的CountBench上，最多提升了7.4%的计数准确率。这个工作的价值不在于方法本身多复杂，而在于它揭示了一个被长期忽视的问题：当模型生成的物体数量都不对的时候，后续的任何高级推理都免谈。这让我想到我们做PDE求解的时候，如果基础的位置信息和数量信息都不准确，那基于这些做物理模拟会有多大的系统误差？所以我挺期待看到这种计数能力被引入到科学模拟中去的。说完计数，我们来看看具身智能的新进展。HY-Embodied-0.5是腾讯推出的具身基础模型，这个工作的核心贡献是针对真实世界机器人设计了一个2B和32B参数的基础模型家族，专注于空间和时间的视觉感知以及具身推理能力。他们采用了Mixture-of-Transformers架构来处理多模态感知。这里有一个点值得关注：他们专门区分了通用VLM和具身智能的差距。这让我想到科学计算中我们经常说的“通用大模型”和“领域专用模型”的区别。具身智能需要在真实物理环境中交互，它的感知-推理-行动闭环和我们做实时物理仿真其实是同构的问题。也许他们的架构设计能为我们做实时PDE求解提供一些参考。接下来这个工作可能和我们的关系更直接一些。ClawBench提出了一个评估AI agents完成日常在线任务能力的benchmark，包含153个任务，144个平台，涵盖从下单到填表的各种场景。这个工作的核心贡献是构建了一个要求远超现有benchmark的测试集，特别体现在从用户提供的文档中获取相关信息、跨平台多步骤工作流、以及大量需要精确填写的表单操作等能力上。很有意思的是，这个工作让我们看到AI agent的能力边界在哪里。如果这些agent能够可靠地完成跨平台任务，那它能不能帮我们自动搭建科学计算的workflow？比如自动获取数据、自动调参、自动生成报告？这可能是AI agent渗透到科研流程的一个切入点。然后是一篇关于推理SFT泛化问题的文章，非常推荐大家看一下。Rethinking Generalization in Reasoning SFT的核心洞见是：之前大家认为supervised finetuning只管记忆，RL才管泛化，但这个工作发现推理SFT的跨域泛化不是没有，而是有条件的。它受优化动态、训练数据和基础模型能力三者共同塑造。有趣的是，他们发现了一个“dip-and-recovery”模式：跨域性能会先下降再恢复，所以短期训练checkpoint会低估泛化能力。这意味着我们以前可能低估了SFT的泛化潜力。数据质量和结构都很重要，低质量的解决方案会广泛损害泛化，而经过验证的长CoT轨迹能带来一致的跨域增益。这个发现对科学计算大模型的训练很有启示：我们不能只看短期性能，训练数据的质量可能比数量更重要，而且基础模型的能力决定了泛化的天花板。最后简单提一下MegaStyle，这个工作提出了一个利用大规模text-to-image模型构建风格数据集的pipeline，核心是用模型的风格映射能力来生成 intra-style一致、inter-style多样的大规模数据，然后基于此训练了一个风格编码器。这个工作技术上很扎实，但它更像是为AIGC社区准备的基础设施。不过如果我们把“风格”理解为“物理规律”，那这个思路或许可以迁移到科学数据的构建上：用基础模型来生成符合物理约束的多样化训练数据。好，让我们来提炼一下今天的整体观察。今天的几篇论文其实都在回答一个共同的问题：如何让AI从“表面理解”走向“深层理解”。无论是精确计数、具身感知、跨域泛化还是跨平台操作，核心都是模型需要建立对物理世界和任务结构的深层把握，而不是停留在表面的模式匹配。这和我们在AI4S领域的追求是一致的。我们不仅希望模型能拟合数据，更希望它能理解背后的物理规律。现在时间还早，祝大家周末愉快，也祝大家的研究工作都能找到那个“深层理解”的切入点。

Paper Morning 2026-04-12

本期涉及论文