Paper Morning 2026-05-08

各位早上好，Paper Morning今天开播了。我们来聊聊本周新鲜出炉的几篇有意思的工作。先看Skill1这篇，它解决的是一个很实际的问题：怎么让语言模型agent能够持续进化自己的技能库。大家知道，现在的agent通常需要依赖一个预先定义好的技能库，但真实场景中技能是在不断积累的。Skill1的思路很巧妙，它用单个强化学习策略同时完成三项任务：从技能库中查询相关技能、实际使用这个技能解决问题、以及从解决经验中提炼出新技能。所有学习信号都来自一个统一的任务outcome目标。这和我们做科学计算的传统思路很不一样——我们通常是为每个子任务设计专门的模块或算法，而Skill1展示了一种更统一的演进路径。我联想到，这其实有点像是把一个科学求解器看成不断积累“解题经验”的agent，而不是静态的固定方法论。第二篇关于agentic search的论文提出了一个很根本的问题：现有的检索系统，不管是基于词义还是语义，在agent执行多步推理任务时都显得不够灵活。问题在于检索被压缩成一步，证据如果在早期被过滤掉，后面再强的推理模型也无法恢复。这对于需要发现中间实体、组合弱线索、然后修正计划的复杂任务来说是致命的。这个问题其实和科学发现过程非常相似——我们做研究时往往不是一次检索就找到答案，而是需要在文献中反复探索、交叉验证。这篇工作尝试让agent直接与语料库交互，某种程度上是在重建这种更动态的探究过程。然后是MARBLE，这篇处理的是diffusion model强化学习微调中的多目标优化问题。大家知道现在diffusion model在图像生成上效果很好，但要对齐人类偏好往往需要优化多个指标，比如美学质量、文本一致性、构图等。传统做法要么针对每个指标训练专门模型，要么用加权求和。MARBLE发现这些方法失败的根本原因在于样本级别的reward不匹配——不同样本的最佳reward组合可能完全不同。它提出的方法是在样本级别动态平衡各个reward的权重。这让我想到，科学计算中的多目标优化其实面临类似挑战：同时要保证精度、效率、稳定性等多个维度，静态的权重分配往往无法适应不同问题特征。再看Continuous Latent Diffusion Language Model，这个工作尝试用层次化的潜在扩散来生成文本，突破了传统自回归模型必须从左到右输出的限制。它先学习文本到潜在空间的映射，然后在连续潜在空间用diffusion model建模全局语义先验，最后条件解码出文本。这个思路和我们科学计算中用降维方法处理高维PDE解有些相通之处——都是在更紧致的表示空间里捕捉事物的本质结构。虽然应用领域不同，但对“层次化表示”的追求是一致的。最后是MiniCPM-o 4.5，它在多模态大模型上实现了实时全双工交互。所谓全双工，就是模型可以在生成回复的同时接收新的输入并即时调整，而不是像以前那样必须等生成完毕才能接收下一轮信息。这对于实现真正像人与人之间的自然交互很重要。想象一下，如果这种能力用到科学计算场景中，未来的数据可视化或许就不再是静态的图表，而是能实时响应研究者意图的交互式分析界面。今天的这几篇论文看起来分散，但我觉得有个共同的潜在线索：它们都在推动AI系统从静态、被动、单模态的模式向动态、主动、多模态的模式演进。无论是agent技能的自主进化、多步推理中的灵活检索、多目标的动态平衡，还是生成模型的非自回归范式、实时多模态交互，背后都是这个趋势。对于我们做AI4S的人来说，这意味着或许可以思考：在科学发现这个本质上高度动态、多步、跨模态的任务中，我们能不能从这些进展中汲取灵感，构建更智能的研究伙伴？好了，今天的播报就到这里，我们明天早餐时间再见。

Paper Morning 2026-05-08

本期涉及论文