Paper Morning 2026-05-10

2026-05-10

各位早上好,周日的Paper Morning又跟各位见面了。今天想聊一个稍微有点发散的话题——最近大语言模型和Agent领域的一些新进展,它们或许在方法论层面能给AI for Science一些启发。 先来看第一篇工作,叫《Beyond Semantic Similarity》,作者来自微软亚研院。这篇论文试图解决的问题很有意思:现在的检索系统,无论是基于关键词还是语义相似度,都把整个语料库“压缩”成一个固定的接口,开发者只能调用一个top-k检索,然后交给下游推理。但作者指出,对于真正需要多步推理的Agent任务来说,这种设计成了瓶颈——Agent需要发现中间实体、组合弱线索、根据部分证据修正计划,而这些能力在早期检索阶段丢失的信息后面是找不回来的。这让我想到,我们在做科学问题求解的时候不也经常这样吗?早期的特征提取或者粗粒度离散化可能会丢失一些微妙的结构信息,后面的精排或者求解阶段想补救就很困难。作者提出的思路是让Agent直接与原始语库交互,而不是通过一个固定的相似度接口。这个方向值得注意,因为它可能在科学文献检索、代码检索这些场景中有直接的应用价值。 接下来看一篇架构层面的工作,《Continuous Latent Diffusion Language Model》。这篇论文提出了一个叫Cola DLM的模型,本质上是在尝试把扩散模型的思想引入语言生成。传统的自回归模型是一个token一个token地生成,这篇工作尝试在连续的潜空间里先做全局语义的建模,然后再通过条件解码生成文本。作者的视角很有意思,把扩散过程理解为一种“潜空间的信息传输”而不是token级别的重建。这让我想到,其实在科学计算里我们也经常做类似的事情——比如把高维的物理场压缩到低维的潜空间里表示,然后在这个空间里做推理或者优化。NLP领域的这个探索或许能为分子生成、材料设计这些需要全局结构建模的任务提供新的思路。 第三篇工作《Skill1》关注的是Agent的技能进化问题。作者认为,一个好的Agent应该能够持续维护一个技能库,包括选择相关技能、在执行中运用技能、以及从经验中提炼新技能。但现有方法往往把这三个能力分开优化,容易产生冲突。Skill1的思路是用一个统一的策略,通过一个任务outcome信号来同时驱动这三方面的学习。这篇工作让我想到,其实在科学发现的场景里,我们也很希望AI Agent能够积累解决问题的“技能”——比如特定的求解技巧、某个领域的先验知识、或者处理特定类型方程的经验。如何让这些技能可持续地进化,可能是一个值得探索的方向。 然后是一个多模态方面的工作,《MiniCPM-o 4.5》。这篇论文试图超越传统的“人问-机器答”的交互范式,向实时的全双工交互迈进。作者指出现有模型的几个瓶颈:感知和响应仍然是交替进行的,模型也比较被动,只会响应明确的指令。这篇工作尝试让模型能够在生成过程中实时incorporate新的输入,并且对多模态环境有主动的感知。这让我想到,在科学实验的场景里,我们其实很需要这种实时的交互能力——比如在实验过程中实时分析数据、根据当前结果动态调整下一步的测量方案,甚至在仪器控制中实现真正的实时反馈。 最后一篇是《MiA-Signature》,这篇工作的出发点很有趣,作者借鉴了认知科学里的“全局点火”理论,提出用一种压缩的表示来近似长上下文中的全局激活效应。具体做法是用子模函数选择高层概念来覆盖被激活的上下文空间。这个思路对于处理超长科学文档、超长代码或者长程物理依赖关系应该有一定的参考价值。 好,今天的播报就到这里。我观察到的一个整体趋势是:无论是检索、生成、Agent还是多模态交互,大家都在从“固定接口、被动响应”的范式,向“更灵活的信息访问、更主动的交互”方向转变。这种转变或许也在暗示我们,AI for Science领域同样需要更多关注如何让模型更主动、更灵活地与科学数据和物理世界交互。各位周末愉快。

本期涉及论文