Paper Morning 2026-06-19

各位早上好，周五的Paper Morning又和大家见面了。今天想先和大家聊一个现象，最近CV和robotics的工作特别火，很多人问我说，你一个做AI4S的，怎么关注起这些了。其实啊，我觉得做科学计算的人，特别需要保持开放的视野，因为方法论上的突破往往来自意想不到的方向。你看NLP的scaling law，RL的自我博弈范式，哪个不是从别的领域启发过来的？所以今天我挑了几篇有意思的论文，咱们一起来看看它们能不能给AI4S的研究带来什么启发。第一篇是Moebius，讲的是轻量级图像修复。一个参数量只有0.2B的模型，达到了10B级工业模型的性能。它用了一个叫Local-λ Mix Interaction的模块，把空间上下文和全局语义压缩到固定大小的线性矩阵里，同时保留了复杂的潜在交互。这让我想到什么了呢？咱们做PDE求解器的时候，经常要在精度和效率之间做权衡，Moebius这种思路其实和神经算子里的模型压缩有相通之处——不是堆参数，而是精巧地设计信息交互的方式。它证明了即便在视觉领域，高效的表示学习依然是核心问题，这和我们追求的PDE foundation model的高效推理，本质上是一个思路。接下来看DragMesh-2，这个工作关注的是灵巧手与关节物体的交互。它强调的一个点很有意思：关节物体的运动不能靠直接驱动，而是要通过持续的物理接触来产生。你看这和我们做物理模拟有什么区别？我们做PDE求解的时候，边界条件和物理约束也是需要显式建模的，模型必须学会处理这些隐式的交互。DragMesh-2用接触动力学作为监督信号，让policy能够泛化到不同的接触负载，这其实暗示了一个更一般的道理：不管是机器人还是物理方程，我们都需要让模型学到真实的因果机制，而不是仅仅拟合表面统计。第三篇是MolmoMotion，做的是给定语言指令，预测3D点的未来轨迹。它提出了一个观点我很认同：3D点云是一种通用的表示，类别无关、视角稳定、紧凑，而且直接对下游任务有用。这让我想到咱们做科学计算的时候，也在寻找类似的通用表示——不管是网格、点云还是函数空间，最终目标都是找到一个能够捕获物理本质的表示。MolmoMotion还构建了一个百万级的大规模数据集，这个思路和咱们强调的科学数据基建是不谋而合的。然后是Playful Agentic Robot Learning，这篇论文研究的是让机器人在没有明确任务指令的情况下，通过自主玩耍来学习技能。它提出RATs架构，让机器人自己提出探索任务、执行代码策略、诊断失败并重试，最后把成功的执行蒸馏成可复用的技能库。这让我想到一个更大的图景：如果说传统的AI4S是在给定方程的情况下求解，那么这种自主探索的范式是不是可以启发我们，让AI系统能够自主“玩耍”物理规律，从而发现新的物理模型？RL的自我博弈已经证明了通过和环境交互可以涌现出复杂的策略，那么通过和物理世界的交互，也许能涌现出新的科学发现。最后看MaineCoon，这是第一个实时的音视频社会世界模型，22B参数，能够做到亚秒级交互。它特别提到，以前的世界模型都 detachment from human-centric social dynamics，而他们试图填补这个空白。这让我思考一个问题：咱们的物理世界模型，是不是也有类似的盲点？我们往往关注的是物理规律本身，而忽略了人类观察者、实验条件这些社会性因素对科学发现的影响。当然这是一个比较远的联想，但我觉得保持这种跨维度的思考是有价值的。好了，今天的播报接近尾声了。我观察到的一个整体趋势是：不管是视觉、机器人还是多模态，大家都在往同一个方向走，那就是让模型不仅能拟合数据，还要理解物理交互的因果结构，并且能够高效地泛化到新场景。这不正是咱们AI4S最关心的问题吗？好了，祝大家周末愉快，我们下周再见。

Paper Morning 2026-06-19

本期涉及论文