Paper Morning 2026-05-06

各位早上好，今天是周三，Paper Morning继续开播。先说第一篇，ARIS——一个自主研究智能体的框架。它的核心贡献很有意思：不仅仅是让智能体干活，更关键的是怎么防止它“摸鱼”或者“自欺欺人”。作者指出，长程研究任务中最大的风险不是智能体直接罢工，而是它给出一个听起来很合理、但证据链其实断裂的结论。这种“ plausible unsupported success”非常隐蔽。ARIS的解法是引入跨模型的对抗协作机制，让不同的智能体互相审查、互相挑战。这个思路让我想到科学研究中peer review的本质——原来不仅人需要同行评审，模型也需要。我个人判断，这篇工作对AI for Science的意义可能比它表面上看起来更大，因为自主科研智能体如果不可靠，结论是错的，那后续的实验设计、文献综述都可能跑偏。第二篇MolmoAct2是一个视觉语言动作模型，专门为机器人实际部署设计。作者没有追求参数的极致scale，而是务实得多——在三个维度上做工程优化：训练数据、推理延迟、以及跨平台适应性。特别值得关注的是他们提出的MolmoER backbone，专门针对空间推理和具身智能优化。我注意到一个趋势：去年大家还在比谁家模型参数多，今年明显转向比谁家能在有限算力下跑起来、跑得好。这或许是VLA领域从研究导向走向产品导向的一个信号。第三篇关于Ctx2Skill的工作，探讨了一个很根本的问题：大语言模型怎么从上下文context中提取技能。作者提出的框架能够自动从长上下文中发现、提炼、筛选出有用的skill，而且不需要人工标注。这让我想到一个类比：以前的模型像是死记硬背的学生，只相信自己参数里的知识；而具备上下文学习能力的模型，更像是会查资料的研究者。Ctx2Skill让模型学会“查资料”这件事本身变得更高效了。第四篇OpenSeeker-v2关注的是搜索智能体的训练。作者做了一个很有说服力的实验：仅仅通过改进训练数据的质量——更丰富的知识图谱、更多样的工具集、更严格的低步数过滤——就能让一个简单的SFT模型达到甚至超越需要复杂RL pipeline才能达到的效果。这篇工作对资源有限的实验室很有启发：与其盲目堆训练范式，不如先审视数据质量。它也呼应了最近整个AI领域对“数据质量＞数据数量”的讨论。最后一篇PRISM，提出的问题很有意思：为什么现在训练大模型都要走SFT再到RL这条路径，但这条路径其实会导致分布漂移？作者在SFT和RL之间加了一个“预对齐”阶段，用对抗蒸馏的方式做on-policy的分布对齐。这让我想到物理里的“松弛”过程——与其直接跳到目标状态，不如先找一个中间平衡态。PRISM的思路或许能给多模态模型的训练提供一个新的常规pipeline。好，最后提炼一下今天的整体观察：今天播报的五篇论文其实都指向同一个趋势——AI系统和模型正在从“能做什么”转向“能可靠地做什么”。无论是ARIS对抗幻觉的机制，MolmoAct2对实际部署的执着，Ctx2Skill对context学习的优化，OpenSeeker-v2对数据质量的强调，还是PRISM对训练分布漂移的纠正，核心关切都是可靠性、实用性、和落地能力。这可能标志着一个范式转变的信号：当benchmark刷榜不再是唯一追求，怎么让模型在真实场景中稳定工作，变成了更紧迫的课题。好了各位，今天的播报就是这样，我们明天早上见。

Paper Morning 2026-05-06

本期涉及论文