Paper Morning 2026-04-07
2026-04-07
各位早上好,又到了Paper Morning的时间。
今天想先从一篇有点特别的论文聊起。OpenWorldLib,中文可以叫开放世界模型库,它做的事情是给“世界模型”这个概念下一个统一的定义。你知道这两年世界模型在AI里火得不行,但从强化学习里的Minecraft,到 robotics 的操控,再到物理仿真,大家说的世界模型其实指向的东西差别很大。这篇论文提出的定义很有意思:世界模型是以感知为中心、具备交互和长期记忆能力的模型框架,用于理解和预测复杂世界。这个定义其实和我们做科学计算的人常说的“数字孪生”有异曲同工之妙——都是试图构建一个能够模拟现实的“代理”。但更关键的是他们给出的能力分类:感知、交互、记忆、推理,这几个维度其实也在回答我们AI4S社区一个根本问题——下一代科学模拟器需要具备什么?光有预测能力够不够?显然不够,交互和记忆可能才是让模型真正“理解”物理世界的关键。
然后第二篇 LIBERO-Para,是关于 VLA 模型——视觉语言动作模型在机器人操控中的语义鲁棒性。这个问题可能离我们做 PDE 或者科学计算比较远,但它揭示的现象值得深思:模型在指令措辞改变时,性能会断崖式下降 22 到 52 个百分点。这让我想到我们在训练物理神经网络时,何尝不是这样?数据分布稍微偏离训练域,泛化就成了大问题。而且这篇论文发现,最主要的降级来源不是动作表达的变化,而是物体层面的词汇替换——也就是说,模型实际上并没有真正理解“物体”这个概念,它只是在拟合训练数据中的特定表述方式。这对我们做 operator learning 的人来说是一个很好的警示:我们声称学到了“算子”,但模型可能只是在记忆训练样本的统计关联。
第三篇 TriAttention 关于长推理的 KV 缓存压缩,这篇的技术细节很扎实。它观察到一个很关键的点:在 Pre-RoPE 空间里,Query 和 Key 向量高度集中在某些非零中心附近,而且这个集中度不随位置变化。这个发现很有意思,因为它意味着传统的用注意力分数来评估 KV 重要性的方法其实是有系统偏差的——Query 总是倾向于attend到特定距离的 Key。于是他们提出用三角函数来建模这种距离偏好,从而更准确地做 KV 压缩。这个工作对做长上下文科学文本处理可能有一定参考价值,但更让我感兴趣的是它背后揭示的关于位置编码的本质问题:当我们用 RoPE 这样的旋转编码时,我们真的理解它在做什么吗?还是只是在调参?
第四篇 MinerU2.5-Pro 关于文档解析,这篇的标题就很直接:推动数据为中心的文档解析极限。作者有一个很犀利的观察:不同架构、不同参数量的模型在同样的困难样本上失败模式高度一致,这说明瓶颈不在模型架构,而在训练数据本身。这和我们做科学数据的观察是一致的——高质量、覆盖真实困难case的数据集往往比换个更 fancy 的模型架构回报更高。他们通过数据工程和训练策略的优化,在完全不动模型架构的情况下把性能往上推了一层。这其实呼应了最近AI4S社区越来越强的共识:foundation model 的能力很大程度上由数据决定,scientific foundation model 更是如此。
最后 GrandCode 是关于用强化学习做竞赛编程的。这个工作的目标很明确:在竞赛编程这个人类最后的堡垒之一上冲击大师级水平。他们的方案有两个关键点:一个是多 agent 的协作框架,包含了假设生成、求解器、测试生成、摘要等等模块;另一个是专门为多阶段 agent rollout 设计的新型 GRPO 训练方法。这让我想到我们做科学发现 agent 的前景——其实本质上是一样的:如何让多个专业化的模块协同工作,如何处理延迟奖励和 off-policy 的问题。可能不久的将来,我们就会看到类似的方法被用到数学证明、实验设计这些科学任务上。
今天的这几篇论文看起来比较发散,但我仔细想了一下,它们其实在回答一个共同的问题:AI 能力往前推进的时候,真正的瓶颈到底在哪里?OpenWorldLib 说是定义和框架,LIBERO-Para 说是对任务本质的理解,TriAttention 说是对模型内部机制的精确建模,MinerU2.5-Pro 说是数据质量,GrandCode 说是系统级的协作和训练范式。换句话说,AI 正在从“堆参数、堆算力”的粗放阶段,进入到“精细化、工程化”的新阶段。这个趋势对做 AI for Science 的我们其实是个好消息——因为科学问题本身的复杂性和对精确性的要求,注定我们不能只靠 scaling,必须回到对问题本质的深刻理解。这才是我们真正的机会所在。