Paper Morning 2026-06-03
2026-06-03
各位早上好,Paper Morning又和大家见面了。
今天想先从一个我们做研究的人都绕不开的话题聊起:怎么评价一个agent做得好不好?最近这两三年,agent的能力可以说是一路狂飙,但 benchmarks 饱和的速度也快得惊人。过去我们建一个benchmark,往往是先写一段自然语言描述的任务,再想办法把它映射成工具调用的序列。但这种方法有个根本问题:它只能覆盖到一小部分工具使用的模式,大量的实际场景被漏掉了。
今天第一篇论文叫 TASTE,TASTE 的思路非常有意思,它是反过来的:不是从任务到工具,而是从工具序列本身出发,去反推什么样的任务是合理的、可执行的。它用了一个基于对比学习的 n-gram 模型,加上 LLM 来判断生成的任务是否有效,这样就能大规模地采样出覆盖范围非常广的工具组合,然后用这些组合再去构造任务。这个思路我觉得值得做 AI4S 的同学想一想:我们现在用的那些科学任务的 benchmark,是不是也有类似的问题?可能我们预设的任务形式本身就限制了模型的发挥空间,有时候从数据本身出发反过来推任务,反而能打开新的局面。
那么有了更全面的 benchmark 之后,怎么训练出更强的 agent 呢?这是接下来两篇论文关心的事情。
Harness-1 这篇工作提出了一个很有洞察的问题:现在的搜索 agent,通常是把整个搜索过程当作一个长长的序列来建模,模型不仅要决定下一步搜什么,还要同时记住之前看到了什么、哪些证据有用、哪些约束还没满足、哪些 claim 已经验证过了。作者认为这其实把太多Routine的状态管理工作交给了策略本身,而这种 bookkeeping 的工作完全可以让环境端来维护, RL 应该专注于真正有价值的语义决策。所以 Harness-1 引入了一个 stateful 的搜索 harness,这个 harness 在环境侧维护了一个工作内存,包括候选池、带重要性标签的精选集合、压缩的证据链接、验证记录等等。模型只需要在 RL 训练过程中跟这个 harness 交互,负责语义层面的搜索决策,而那些繁琐的状态管理全部交给 harness 来处理。这是一个很典型的“让专业的人做专业的事”的思路,把推理和记忆分离开来。
那么如果既想让 agent 学到好的策略,又想让 agent 理解自己的行为对环境造成了什么影响呢?这就是 PaW 这篇论文要解决的问题了。RL 本身可以教 agent 哪些动作能得到高回报,但它并不教 agent 这些动作改变了什么。作者提出了一个很巧妙的观察:其实 RL 的 rollout 本身就包含了动作和结果成对的信息,每一个 transition 都是一个动作和它带来的下一个观测的配对。PaW 就是利用这个信号,在 RL 训练的同时加入了一个辅助的 world modeling 目标,让模型在学习策略的同时也学习世界模型。而且它并没有引入额外的推理开销,只是给同一个策略网络加了 auxiliary loss。我觉得这个思路对于我们做科学模拟的人特别有启发:以前我们训练物理模型,往往是纯监督学习让模型预测下一步状态,但其实 RL 过程中产生的那些“尝试-结果”对,本身就是非常好的世界模型训练数据。
说完了 agent 的训练,我们再来一篇关于推理效率的论文。Domino 这篇是关于 speculative decoding 的。我们知道 speculative decoding 可以通过先让一个小的draft模型生成多个 token,然后让大的目标模型并行验证来加速推理。但这里有个 trade-off:自回归的 draft 模型虽然能建模 token 之间的因果依赖,但它的生成成本高;并行的 draft 模型成本低了,但牺牲了 block 内 token 之间的依赖建模。Domino 的做法是把这两件事解耦:先用并行的 draft 主干生成整个 block 的初步分布,然后用一个小巧的 Domino head 来加入前缀依赖的因果信息进行 refine。这样既保持了推理速度,又不会损失生成质量。
最后还有一篇机器人相关的论文,AFUN,它要构建的是一个功能可供性的 foundation model。可供性(affordance)这个词在机器人领域很重要,意思是说一个物体能提供什么样的交互可能性。AFUN 可以从单张 RGB-D 图像和语言任务描述出发,预测出交互应该发生的位置和可执行的动作,而且它是一个可以跨不同环境、物体和任务泛化的基础模型。
好了,今天的论文都简单过了一遍。我观察到的一个整体趋势是:不管是agent的benchmark设计、训练范式,还是推理效率的优化,大家都在做一件事——把不同模块的职责明确地划分开,让专业模块各司其职,然后再想办法让它们高效协作。从 TASTE 的任务和工具解耦,到 Harness-1 的语义决策和状态管理解耦,到 PaW 的策略学习和世界建模融合,再到 Domino 的因果建模和draft执行解耦,以及 AFUN 把感知和动作规划整合到一个模型里,其实都在回答同一个问题:怎么构建一个更高效、更可扩展的智能系统。这种模块化、分层化的思路,或许也是我们思考 AI4S 基础设施时的一个重要参考。
好了,今天的早间播报就到这里,我们明天见。