Paper Morning 2026-06-01

各位早上好，今天是周一，Paper Morning继续开播。先来看第一篇工作，GrepSeek，关注的是大模型搜索智能体如何直接操作语料库。大家知道，现在的检索系统基本都是一个套路：给定查询，用倒排索引或者稠密向量去召回文档。但这篇工作提出了一个挺有意思的互补视角——让智能体像人一样，直接在原始语料库上执行shell命令来查找、过滤和组合证据。这本质上是把搜索过程本身变成可学习的。我看到作者训练了一个紧凑的搜索智能体来做这件事。对我们AI for Science社区来说，这个思路值得注意，因为我们有很多大型科学语料库和代码仓库，如何高效地和它们交互本身就是个大问题。如果搜索智能体能学会直接操作数据，那可能为科学数据的自动化分析打开新的可能性。接下来这篇，Trust-Region Behavior Blending for On-Policy Distillation，讲的是模型蒸馏里的一个具体问题。我们知道离线蒸馏有个前缀不匹配的老毛病，学生用自己的早期输出作为前缀去学老师，但这些早期输出质量往往很差。TRB这个方法的思路很有意思，它在学生为中心的KL信任域内，用一个离老师最近的行为策略来替代早期 rollout 策略，然后随着训练推进逐渐把KL预算退火到零。这本质上是在解决分布偏移问题。熟悉强化学习的同学可能会觉得这个思路眼熟——确实，它和TRPO、PPO里信任域的思想是相通的。跨领域的知识迁移往往就是这样发生的。第三篇COLLEAGUE.SKILL，关注的是如何从专家的痕迹数据中自动提取可复用的AI技能。现在的AI智能体越来越需要具备人类专家的判断力和交互风格，但这些隐性知识往往嵌在各种异构的行为轨迹里，而不是写成显式的规则。这篇工作给出了一个端到端的流程：从专家轨迹到可检验、可纠正的技能表示。这让我想到我们在科学计算里经常说的“知识蒸馏”，其实本质上是类似的迁移过程——把专家或大模型的能力迁移到更高效的学生模型里。区别在于，这里迁移的是具体执行特定任务的技能，而不仅仅是知识本身。第四篇工作 GGT-100K，用生成式多模态基础模型来为图像修复任务制造高质量的配对训练数据。大家知道，真实世界的图像修复一直受限于高质量配对数据的匮乏——合成数据太假，真实数据又太贵。这篇工作的思路是用最新的多模态大模型，比如Nano-Banana-2，给定低质量图像，直接生成高质量的目标图像作为训练数据。这其实是一种用基础模型做数据增强的方法。生成式模型在科学模拟里也有类似的应用，比如用来扩充训练数据或者做数据合成，只是这里的目标是图像修复，底层逻辑是一样的。最后这篇，SwanVoice，做的是零样本语音合成，但特别强调了长对话场景下的表现。以往的单说话人TTS模型在处理多说话人对话时往往是把每段单独合成再拼接，这样不仅推理成本高，还容易破坏声学一致性和情感连贯性。SwanVoice同时建模了独白和对话两种场景，还专门做了停顿感知的词级对齐。这个工作让我想到我们在做物理模拟时经常遇到的尺度问题——局部准确和全局一致往往难以兼顾，需要在模型架构和训练策略上同时下功夫。今天的这几篇论文看起来方向分散，但背后其实有一条暗线：都是在解决基础模型能力到实际应用之间的最后一公里问题。无论是搜索智能体直接操作语料库、知识蒸馏里的分布偏移、技能的可复用封装、训练数据的生成式扩充，还是语音合成的一致性保障，本质上都是在问同一个问题——我们如何在有限的计算资源下，让基础模型的强大能力真正落地？这个问题的答案，可能比单个模型架构的改进更能影响未来的研究走向。

Paper Morning 2026-06-01

本期涉及论文