Paper Morning 2026-04-11

2026-04-11

各位早上好,Paper Morning又和大家见面了。 今天想先从一篇关于推理泛化的文章聊起。最近有一种流行的说法,说监督微调SFT只是记忆,而强化学习RL才能泛化。但腾讯AI Lab这篇"Rethinking Generalization in Reasoning SFT"用实验告诉我们,这个说法太绝对了。他们发现跨领域泛化能力其实是有条件的,跟优化过程、训练数据和基础模型能力都有关。特别是他们观察到一个很有意思的现象:跨域性能会先下降再恢复——我把它叫做"先蹲后跳"模式。这就解释了为什么之前有些研究说泛化不存在,可能只是训练时间不够,checkpoint取得太早了。这对我们理解LLM的scaling law很有帮助,因为数据量和模型规模的增加会带来这种非单调的优化曲线。这篇文章的思路其实和科学计算中观察到的现象很像:我们训练神经网络求解PDE时,早期泛化曲线也不一定是单调的。 说完了推理模型的泛化,我们来看看具身智能这个方向。腾讯 Robotics X 发布了 HY-Embodied-0.5,一套专门为真实世界机器人设计的基础模型。他们区分了通用VLM和具身智能的差异——后者需要空间和时间的视觉感知,加上预测、交互和规划的推理能力。这让我想到,这其实和我们在科学模拟中追求的目标很像:我们不只是要"看懂"物理现象,还要能"交互"和"预测"。他们用2B和32B两个版本分别针对边缘部署和复杂推理,这个思路也呼应了AI4S中不同精度需求场景的划分——有时我们需要轻量级模型做快速近似,有时需要大模型做深度推理。 接下来这篇文章很有意思。西北大学和UIUC等机构推出了ClawBench,关注AI agent能否完成日常网络任务。他们设计了153个简单但真实的任务,涵盖144个平台,从下单到填申请表都有。这让我想到一个更根本的问题:我们能不能用AI agent来自动化科研工作本身?比如让agent帮我们设计实验、调试代码、分析数据?现有的benchmark主要测的是通用能力,而ClawBench提供了一种更接近真实场景的评估方式。这个方向和"AI辅助科学发现"这个大主题是相通的——我们在讨论如何用LLM帮科学家干活,而ClawBench某种意义上是在问:AI能不能先把科学家从繁琐的日常事务中解放出来? 最后简单提一下两篇关于生成模型的工作。NUMINA解决的是text-to-video中"数不清"的问题——模型生成指定数量物体时会出错。他们通过选择特定的attention head来推导出可数的latent layout,再引导生成。这个思路很巧妙,它不是从头训练一个新模型,而是找到模型内部已经有的"计数能力",然后加以利用。这让我想到,我们能不能用类似的方法从已经训练好的科学生成模型中"挖掘"出一些我们想要的物理性质?比如从预训练模型中提取对称性信息或者守恒律?而MegaStyle的工作是构建大规模风格数据集,他们用170K风格提示词和40万内容提示词组合,训练了一个风格编码器。这种数据工程的工作可能不如算法创新吸引眼球,但却是整个生成模型生态的重要基础设施。 今天的几篇文章有一个共同的暗线:大家都在关注基础模型的能力边界和如何更高效地发挥这些能力。不管是推理泛化的条件分析、具身智能的专用化、还是让生成模型更精准地遵循指令,本质上都是在问同一个问题——我们如何让已经训练好的大模型更好地为特定目标服务?这其实也是AI4S面临的核心挑战:通用模型有了,但我们需要为物理模拟、方程求解这些具体任务做针对性的适配。今天的观察就到这里。

本期涉及论文