Paper Morning 2026-04-10

各位早上好，Paper Morning又和大家见面了。今天想先从一个大家可能都注意到的现象聊起。这两年我们看AI顶会，会发现一个有趣的分叉：一方面大模型在刷榜，各种通用能力benchmark被不断突破；另一方面，越来越多的人开始问一个更本质的问题——这些通用能力，到底能在多大程度上延伸到具体场景？这不，今天的几篇论文就刚好踩在了这个张力上。先看第一篇，NUMINA，讲的是text-to-video模型里一个看似简单但实际很棘手的问题——让模型正确生成 prompt 里指定的物体数量。作者们发现，主流的diffusion model在处理“画面里有三只猫”这种指令时，经常会漏掉或者多出几个。于是他们提出了一个training-free的框架，通过分析attention map里的一些特殊head，识别出物体应该分布在哪些区域，然后保守地调整生成过程。这个思路挺巧妙的，相当于在模型原本的生成流程里插入了一个“校对”环节。值得关注的是，这个工作没有引入新的训练，而是利用了模型本身已经学到的结构化表示。这让我想到，可能很多所谓的数据对齐问题，未必要靠堆数据解决，有时候“调用”好已有能力反而更高效。接下来这篇HY-Embodied-0.5，是腾讯 robotics X 做的一套具身智能基础模型。他们明确区分了通用VLM和具身agent需要的不同能力——后者特别强调空间感知、时间序列理解，还有预测式推理。为了在边缘设备上也能跑，他们搞了一个2B参数的版本，同时保留了一个32B的强力版本用于复杂推理。这里有个技术细节我比较感兴趣，他们用了Mixture-of-Transformers架构，让不同模态的信息能更灵活地交互。这其实反映了一个趋势：具身智能不再只是把视觉语言模型直接搬过来用，而是要针对具体需求重新设计架构。然后是ClawBench，这个工作很有意思，它不测模型在现有benchmark上的分数，而是测AI agent能不能帮我们完成真实的日常在线任务——比如下单买东西、预约挂号、填申请表。作者们收集了153个任务，覆盖144个真实平台。结果发现，现有的agent在这些看似简单的任务上，犯错率仍然很高，特别是需要从用户提供的文档里提取信息、或者要在多个页面之间跳转的时候。这个工作给我们的提醒是：benchmark的设计本身就是一个研究方向，什么样的benchmark能真正测出agent的实用价值，有时候比模型本身更重要。第四篇是关于推理SFT的泛化问题。作者们挑战了一个流行说法——都说SFT是记忆，RL才是泛化。他们用长CoT数据做了实验，发现泛化能力其实不是没有，而是有条件的。他们观察到一个很有意思的现象：跨领域性能会先下降再回升，形成一个“dip-and-recovery”曲线。如果训练时间不够长，就会误以为SFT没有泛化能力。除此之外，数据质量和模型规模也都影响很大。这个发现对做post-training的人应该很有启发——可能不是方法本身有问题，而是训练得不够久、数据不够好。最后一篇MegaStyle，是关于构建大规模风格数据集的pipeline。他们用现有的text-to-image模型本身来生成风格一致的图片，然后用这些数据训练一个专门的style encoder。这个思路有点像是“用模型生成数据，再用数据提升模型”的循环。规模也不小，17万风格提示词，40万内容提示词，最终搞出了140万配对数据。这种数据工程可能看起来不如模型创新那么光鲜，但实际上为后续的风格控制研究提供了很重要的基础设施。好，最后提炼一下今天的整体观察。我看到这几篇论文其实都在回答一个共同的问题：怎么从“能做什么”推进到“可靠地做什么”。不管是生成模型的数量对齐、具身智能的空间推理、agent的真实任务完成率，还是推理SFT的泛化条件，大家的着力点都在从刷榜能力转向可控性、泛化性和实用性。这可能标志着AI研究正在从“能力涌现”的激动期，进入到“能力兑现”的深水区。好了，今天的播报就到这里，我们明天早上见。

Paper Morning 2026-04-10

本期涉及论文