Paper Morning 2026-06-20

各位早上好，周末的Paper Morning又跟各位见面了。今天想先从一个更大的话题聊起。我们都知道，这两年AI for Science里最火的方向之一是预训练范式向科学计算的迁移——大家都在讨论PDE foundation model、operator learning的scaling law。但今天我看到的几篇论文，反而让我觉得另一个趋势值得关注：那就是物理交互智能的进步，或者说，AI系统在物理世界里的“具身智能”正在快速迭代。这个方向虽然不直接是PDE求解，但它底层的思想——如何用神经网络建模接触动力学、如何预测物体在3D空间里的运动轨迹——其实和我们在意的问题有很深的呼应。先看DragMesh-2这篇工作，它研究的是灵巧手怎么去操作有铰链的物体，比如开门、抽屉这种日常场景。听起来是机器人领域的常规问题，但细看会发现它的难点所在：当你用手指去拨动一个门把手的时候，门不是直接被“命令”打开的，而是通过持续的手指-把手接触，产生物理力，然后运动才发生。这个过程涉及接触力学的非平滑优化，传统上需要精确的物理建模和接触力估计。DragMesh-2的核心贡献在于，它不再依赖预先设计好的几何轨迹，而是让策略通过强化学习在模拟器里自己学会处理这些接触动力学。论文里特别提到，他们发现只训练任务完成而不考虑接触力建模的话，策略会过拟合到 nominal contact loads 上，换句话说，它学会了在理想条件下完成任务，但稍微有点扰动就失效了。这其实和我们做PDE求解时遇到的问题很像——一个在训练分布上表现好的模型，一旦遇到分布外的输入，精度就急剧下降。他们怎么解决的呢？通过引入物理约束和接触力感知的学习目标。这让我想到，这两年大家在operator learning里讨论的physics-informed prior，可能不仅仅是往loss里加一项PDE residual那么简单，而是要在模型架构层面就融入对物理结构的感知。如果说DragMesh-2关注的是“手和物体怎么接触”，那MolmoMotion关注的就是“物体未来怎么动”。这篇论文提出了一个任务：给定一段视觉历史、物体上的一些3D查询点，以及一段语言指令，预测这些点未来的3D轨迹。比如你说“把杯子推倒”，模型需要预测杯子各个点的运动轨迹。他们的核心观点很有意思：3D点云是一种view-stable、class-agnostic的表示，比传统的物体中心坐标更适合做运动预测。这让我想到，我们在做PDE求解的时候，其实也在寻找一种“好用”的表示——既能捕捉物理场的本质特征，又对各种几何形状具有泛化能力。MolmoMotion用了一个大规模的语料库MolmoMotion-1M来做训练，里面有一百多万条带语言标注的3D点轨迹数据。这又是一个“数据驱动+物理直觉”的例子。我注意到他们特别强调了goal-conditioned这个设定——也就是说，预测不是无条件的，而是conditioned on一个语言描述的目标。这和我们做PDE求解时给定边界条件、初始条件的思路是完全一致的。某种程度上，这篇工作可以被理解为：用语言作为condition，用3D点轨迹作为预测目标，训练一个类似于 neural operator 的东西，只是这里的operator把视觉+语言映射到物理轨迹。今天的第三篇想简单提一下Playful Agentic Robot Learning。这篇的思路很新颖：与其让机器人只学任务，不如让它先“玩”。通过self-directed play，机器人可以自主探索、积累技能，然后在新任务来的时候复用已有的skill library。这其实有点像是foundation model的预训练+微调范式在机器人领域的迁移——先广泛学习通用技能，再针对具体任务做适配。有趣的是，他们让agent自己提出“novel yet learnable”的探索任务，这让我想到，如果把这个思路放到科学计算里，是不是可以让AI系统自主探索物理规律、发现新的pde形式？最后一个是Multi-LCB，这个主要是把代码评测基准扩展到十二种编程语言，和我们AI4S方向关系不大，但它的思路很清晰——评估LLM在真实软件工程场景下的跨语言泛化能力。好了，今天的整体观察是什么呢？我想说，今天这几篇论文虽然不直接是PDE求解或者neural operator，但它们都指向同一个核心挑战：如何在数据驱动和物理约束之间找到好的平衡。DragMesh-2用物理感知的强化学习处理接触动力学，MolmoMotion用大规模数据和语言condition来预测物理轨迹，Playful Agentic Robot Learning用自主玩耍来积累物理交互经验。这让我觉得，AI for Science的下一波突破，可能不仅仅是把transformer架构套用在PDE求解上，而是要更深入地思考：怎么让模型真正“理解”物理世界的结构和约束，然后这种理解能够泛化到新的任务、新的场景。这和我们一直追求的operator learning的泛化能力，其实是一体两面。好了，今天的播报就到这里，祝各位周末愉快。

Paper Morning 2026-06-20

本期涉及论文