Paper Morning 2026-04-12

2026-04-12

各位早上好,周末的Paper Morning又和大家见面了。今天想聊一个特别的话题:我们正在见证AI从“理解符号”走向“理解物理”的关键转折。 先来看一篇挺有意思的工作。NUMINA解决的是一个看似简单但实际很本质的问题:现在的text-to-video模型,你告诉它“天空有五只鸟”,它可能给你生成三只,也可能给你生成七只,就是很难精确。这个工作的核心贡献是提出了一个训练-free的识别-引导框架,通过选择区分性的self-attention和cross-attention头,推导出可计数的潜在布局,然后保守地精炼这个布局并调制cross-attention来引导重新生成。我看到他们在新引入的CountBench上,最多提升了7.4%的计数准确率。这个工作的价值不在于方法本身多复杂,而在于它揭示了一个被长期忽视的问题:当模型生成的物体数量都不对的时候,后续的任何高级推理都免谈。这让我想到我们做PDE求解的时候,如果基础的位置信息和数量信息都不准确,那基于这些做物理模拟会有多大的系统误差?所以我挺期待看到这种计数能力被引入到科学模拟中去的。 说完计数,我们来看看具身智能的新进展。HY-Embodied-0.5是腾讯推出的具身基础模型,这个工作的核心贡献是针对真实世界机器人设计了一个2B和32B参数的基础模型家族,专注于空间和时间的视觉感知以及具身推理能力。他们采用了Mixture-of-Transformers架构来处理多模态感知。这里有一个点值得关注:他们专门区分了通用VLM和具身智能的差距。这让我想到科学计算中我们经常说的“通用大模型”和“领域专用模型”的区别。具身智能需要在真实物理环境中交互,它的感知-推理-行动闭环和我们做实时物理仿真其实是同构的问题。也许他们的架构设计能为我们做实时PDE求解提供一些参考。 接下来这个工作可能和我们的关系更直接一些。ClawBench提出了一个评估AI agents完成日常在线任务能力的benchmark,包含153个任务,144个平台,涵盖从下单到填表的各种场景。这个工作的核心贡献是构建了一个要求远超现有benchmark的测试集,特别体现在从用户提供的文档中获取相关信息、跨平台多步骤工作流、以及大量需要精确填写的表单操作等能力上。很有意思的是,这个工作让我们看到AI agent的能力边界在哪里。如果这些agent能够可靠地完成跨平台任务,那它能不能帮我们自动搭建科学计算的workflow?比如自动获取数据、自动调参、自动生成报告?这可能是AI agent渗透到科研流程的一个切入点。 然后是一篇关于推理SFT泛化问题的文章,非常推荐大家看一下。Rethinking Generalization in Reasoning SFT的核心洞见是:之前大家认为supervised finetuning只管记忆,RL才管泛化,但这个工作发现推理SFT的跨域泛化不是没有,而是有条件的。它受优化动态、训练数据和基础模型能力三者共同塑造。有趣的是,他们发现了一个“dip-and-recovery”模式:跨域性能会先下降再恢复,所以短期训练checkpoint会低估泛化能力。这意味着我们以前可能低估了SFT的泛化潜力。数据质量和结构都很重要,低质量的解决方案会广泛损害泛化,而经过验证的长CoT轨迹能带来一致的跨域增益。这个发现对科学计算大模型的训练很有启示:我们不能只看短期性能,训练数据的质量可能比数量更重要,而且基础模型的能力决定了泛化的天花板。 最后简单提一下MegaStyle,这个工作提出了一个利用大规模text-to-image模型构建风格数据集的pipeline,核心是用模型的风格映射能力来生成 intra-style一致、inter-style多样的大规模数据,然后基于此训练了一个风格编码器。这个工作技术上很扎实,但它更像是为AIGC社区准备的基础设施。不过如果我们把“风格”理解为“物理规律”,那这个思路或许可以迁移到科学数据的构建上:用基础模型来生成符合物理约束的多样化训练数据。 好,让我们来提炼一下今天的整体观察。今天的几篇论文其实都在回答一个共同的问题:如何让AI从“表面理解”走向“深层理解”。无论是精确计数、具身感知、跨域泛化还是跨平台操作,核心都是模型需要建立对物理世界和任务结构的深层把握,而不是停留在表面的模式匹配。这和我们在AI4S领域的追求是一致的。我们不仅希望模型能拟合数据,更希望它能理解背后的物理规律。现在时间还早,祝大家周末愉快,也祝大家的研究工作都能找到那个“深层理解”的切入点。

本期涉及论文