Paper Morning 2026-06-13

各位早上好，周末的Paper Morning又和大家见面了。今天想先从一个观察说起。这两年我们见证了基础模型能力的飞速提升，但从研究重心来看，有一个趋势越来越明显：大家的关注点正在从“模型本身有多强”，逐渐转向“系统在实际场景中能不能用”。今天要聊的几篇论文，恰好都指向这个方向。第一篇是MiniMax Sparse Attention，解决的是长上下文模型的实际部署难题。我们知道，现在LLM要处理代码仓库、agent的工作记忆、持久化上下文，这些场景都要求模型能一次处理几十万甚至上百万个token。但标准softmax注意力的二次复杂度让这在部署层面几乎不可行。MiniMax的方案很直接：用轻量级的索引分支给KV块打分组分数，然后每个GQA组独立选出Top-k的块，最后在主分支做精确的块稀疏注意力。这个设计的好处是保持了group-level的稀疏检索灵活性，同时利用块级执行保证效率。我觉得最值得注意的不是技术细节，而是它体现的思路：当模型规模和能力已经足够的时候，工程上的稀疏化成了让能力真正落地的关键杠杆。第二篇 Robust-U1 提出了一个很有趣的问题：多模态大模型能不能自己“看见”并修复被损坏的图像？以往提高视觉鲁棒性的方法，要么是黑盒的特征对齐，要么是基于文本的推理，但前者缺乏解释性，后者无法恢复像素级细节。Robust-U1的做法是让MLLM具备显式的视觉自恢复能力，通过三阶段流程：监督微调做初始重建，强化学习用双重奖励——像素级的SSIM和语义级的理解正确率——来指导恢复质量。这个工作的价值在于，它把“鲁棒性”从被动防御变成了主动修复，而且是用模型自身的能力来解决。这是一个挺有启发性的思路转变。然后是两篇关于agent的论文。EvoArena关注的是动态环境下的记忆演化问题。真实世界不是静态的——终端软件会更新，社会环境会变化，任务条件会演变。但现有agent benchmark大多假设环境是静止的。EvoArena构建了一个benchmark，模拟跨终端、软件、社会领域的渐进式环境变化，并提出EvoMem，用补丁式的记忆范式记录演化的历史轨迹，让agent能够通过对记忆变化的推理来适应新环境。实验结果很有意思：当前agent在这个benchmark上表现普遍不太好，平均准确率很低。这说明我们agent的持续学习能力、环境感知能力还有很大的提升空间。 WeaveBench 则从另一个角度切入了agent的真实能力问题。它关注的是跨界面协同——现在的计算机使用agent需要在GUI、命令行、代码编辑、浏览器、外部工具之间频繁切换，但现有benchmark往往把这些能力割裂测试。WeaveBench构建了一个114个任务的benchmark，覆盖8个真实工作领域，每个任务都需要agent在单条轨迹中混合使用GUI观察和CLI代码操作。更关键的是它在真实的Ubuntu桌面环境中测试，而不只是模拟器。这篇工作的贡献更多是基础设施性质的——它为cross-interface orchestration提供了一个可靠的测试床。最后一篇 InterleaveThinker 解决的是图像生成的一个具体限制：现有的图像生成器，包括最新的开源统一多模态模型，在交错生成——就是文本和图像序列交替输出——这个能力上都很薄弱。InterleaveThinker的解法是引入一个规划agent来组织文本图像输入序列，然后指挥图像生成器在每个步骤执行相应操作。这是一个multi-agent pipeline，给任意现有图像生成器赋予了交错生成能力。虽然技术上是一个比较直接的pipeline设计，但它反映的需求是真实的：视觉叙事、具身操控这些场景都需要模型能够灵活地交替输出文本和图像。好了，今天的五篇论文聊完了。如果提炼一个整体观察，我的感觉是：当前AI研究的前沿问题，正在从“如何让基础模型更强”转向“如何让系统能力在实际场景中真正落地”。无论是长上下文的稀疏化、视觉的自恢复、动态环境的适应、跨界面的协同，还是多模态的交错生成，这些工作的共同目标都是突破实验室能力到真实世界可用之间的那道墙。这个转变意味着，我们不仅要关注模型架构的创新，还要更多关注数据、benchmark、训练范式、系统优化这些“ infrastructure”层面的东西。它们可能不如大模型发布那么吸引眼球，但恰恰是决定技术能否真正改变世界的关键。周末愉快。

Paper Morning 2026-06-13

本期涉及论文