Paper Morning 2026-04-07

各位早上好，又到了Paper Morning的时间。今天想先从一篇有点特别的论文聊起。OpenWorldLib，中文可以叫开放世界模型库，它做的事情是给“世界模型”这个概念下一个统一的定义。你知道这两年世界模型在AI里火得不行，但从强化学习里的Minecraft，到 robotics 的操控，再到物理仿真，大家说的世界模型其实指向的东西差别很大。这篇论文提出的定义很有意思：世界模型是以感知为中心、具备交互和长期记忆能力的模型框架，用于理解和预测复杂世界。这个定义其实和我们做科学计算的人常说的“数字孪生”有异曲同工之妙——都是试图构建一个能够模拟现实的“代理”。但更关键的是他们给出的能力分类：感知、交互、记忆、推理，这几个维度其实也在回答我们AI4S社区一个根本问题——下一代科学模拟器需要具备什么？光有预测能力够不够？显然不够，交互和记忆可能才是让模型真正“理解”物理世界的关键。然后第二篇 LIBERO-Para，是关于 VLA 模型——视觉语言动作模型在机器人操控中的语义鲁棒性。这个问题可能离我们做 PDE 或者科学计算比较远，但它揭示的现象值得深思：模型在指令措辞改变时，性能会断崖式下降 22 到 52 个百分点。这让我想到我们在训练物理神经网络时，何尝不是这样？数据分布稍微偏离训练域，泛化就成了大问题。而且这篇论文发现，最主要的降级来源不是动作表达的变化，而是物体层面的词汇替换——也就是说，模型实际上并没有真正理解“物体”这个概念，它只是在拟合训练数据中的特定表述方式。这对我们做 operator learning 的人来说是一个很好的警示：我们声称学到了“算子”，但模型可能只是在记忆训练样本的统计关联。第三篇 TriAttention 关于长推理的 KV 缓存压缩，这篇的技术细节很扎实。它观察到一个很关键的点：在 Pre-RoPE 空间里，Query 和 Key 向量高度集中在某些非零中心附近，而且这个集中度不随位置变化。这个发现很有意思，因为它意味着传统的用注意力分数来评估 KV 重要性的方法其实是有系统偏差的——Query 总是倾向于attend到特定距离的 Key。于是他们提出用三角函数来建模这种距离偏好，从而更准确地做 KV 压缩。这个工作对做长上下文科学文本处理可能有一定参考价值，但更让我感兴趣的是它背后揭示的关于位置编码的本质问题：当我们用 RoPE 这样的旋转编码时，我们真的理解它在做什么吗？还是只是在调参？第四篇 MinerU2.5-Pro 关于文档解析，这篇的标题就很直接：推动数据为中心的文档解析极限。作者有一个很犀利的观察：不同架构、不同参数量的模型在同样的困难样本上失败模式高度一致，这说明瓶颈不在模型架构，而在训练数据本身。这和我们做科学数据的观察是一致的——高质量、覆盖真实困难case的数据集往往比换个更 fancy 的模型架构回报更高。他们通过数据工程和训练策略的优化，在完全不动模型架构的情况下把性能往上推了一层。这其实呼应了最近AI4S社区越来越强的共识：foundation model 的能力很大程度上由数据决定，scientific foundation model 更是如此。最后 GrandCode 是关于用强化学习做竞赛编程的。这个工作的目标很明确：在竞赛编程这个人类最后的堡垒之一上冲击大师级水平。他们的方案有两个关键点：一个是多 agent 的协作框架，包含了假设生成、求解器、测试生成、摘要等等模块；另一个是专门为多阶段 agent rollout 设计的新型 GRPO 训练方法。这让我想到我们做科学发现 agent 的前景——其实本质上是一样的：如何让多个专业化的模块协同工作，如何处理延迟奖励和 off-policy 的问题。可能不久的将来，我们就会看到类似的方法被用到数学证明、实验设计这些科学任务上。今天的这几篇论文看起来比较发散，但我仔细想了一下，它们其实在回答一个共同的问题：AI 能力往前推进的时候，真正的瓶颈到底在哪里？OpenWorldLib 说是定义和框架，LIBERO-Para 说是对任务本质的理解，TriAttention 说是对模型内部机制的精确建模，MinerU2.5-Pro 说是数据质量，GrandCode 说是系统级的协作和训练范式。换句话说，AI 正在从“堆参数、堆算力”的粗放阶段，进入到“精细化、工程化”的新阶段。这个趋势对做 AI for Science 的我们其实是个好消息——因为科学问题本身的复杂性和对精确性的要求，注定我们不能只靠 scaling，必须回到对问题本质的深刻理解。这才是我们真正的机会所在。

Paper Morning 2026-04-07

本期涉及论文