Paper Morning 2026-06-19
2026-06-19
各位早上好,周五的Paper Morning又和大家见面了。
今天想先和大家聊一个现象,最近CV和robotics的工作特别火,很多人问我说,你一个做AI4S的,怎么关注起这些了。其实啊,我觉得做科学计算的人,特别需要保持开放的视野,因为方法论上的突破往往来自意想不到的方向。你看NLP的scaling law,RL的自我博弈范式,哪个不是从别的领域启发过来的?所以今天我挑了几篇有意思的论文,咱们一起来看看它们能不能给AI4S的研究带来什么启发。
第一篇是Moebius,讲的是轻量级图像修复。一个参数量只有0.2B的模型,达到了10B级工业模型的性能。它用了一个叫Local-λ Mix Interaction的模块,把空间上下文和全局语义压缩到固定大小的线性矩阵里,同时保留了复杂的潜在交互。这让我想到什么了呢?咱们做PDE求解器的时候,经常要在精度和效率之间做权衡,Moebius这种思路其实和神经算子里的模型压缩有相通之处——不是堆参数,而是精巧地设计信息交互的方式。它证明了即便在视觉领域,高效的表示学习依然是核心问题,这和我们追求的PDE foundation model的高效推理,本质上是一个思路。
接下来看DragMesh-2,这个工作关注的是灵巧手与关节物体的交互。它强调的一个点很有意思:关节物体的运动不能靠直接驱动,而是要通过持续的物理接触来产生。你看这和我们做物理模拟有什么区别?我们做PDE求解的时候,边界条件和物理约束也是需要显式建模的,模型必须学会处理这些隐式的交互。DragMesh-2用接触动力学作为监督信号,让policy能够泛化到不同的接触负载,这其实暗示了一个更一般的道理:不管是机器人还是物理方程,我们都需要让模型学到真实的因果机制,而不是仅仅拟合表面统计。
第三篇是MolmoMotion,做的是给定语言指令,预测3D点的未来轨迹。它提出了一个观点我很认同:3D点云是一种通用的表示,类别无关、视角稳定、紧凑,而且直接对下游任务有用。这让我想到咱们做科学计算的时候,也在寻找类似的通用表示——不管是网格、点云还是函数空间,最终目标都是找到一个能够捕获物理本质的表示。MolmoMotion还构建了一个百万级的大规模数据集,这个思路和咱们强调的科学数据基建是不谋而合的。
然后是Playful Agentic Robot Learning,这篇论文研究的是让机器人在没有明确任务指令的情况下,通过自主玩耍来学习技能。它提出RATs架构,让机器人自己提出探索任务、执行代码策略、诊断失败并重试,最后把成功的执行蒸馏成可复用的技能库。这让我想到一个更大的图景:如果说传统的AI4S是在给定方程的情况下求解,那么这种自主探索的范式是不是可以启发我们,让AI系统能够自主“玩耍”物理规律,从而发现新的物理模型?RL的自我博弈已经证明了通过和环境交互可以涌现出复杂的策略,那么通过和物理世界的交互,也许能涌现出新的科学发现。
最后看MaineCoon,这是第一个实时的音视频社会世界模型,22B参数,能够做到亚秒级交互。它特别提到,以前的世界模型都 detachment from human-centric social dynamics,而他们试图填补这个空白。这让我思考一个问题:咱们的物理世界模型,是不是也有类似的盲点?我们往往关注的是物理规律本身,而忽略了人类观察者、实验条件这些社会性因素对科学发现的影响。当然这是一个比较远的联想,但我觉得保持这种跨维度的思考是有价值的。
好了,今天的播报接近尾声了。我观察到的一个整体趋势是:不管是视觉、机器人还是多模态,大家都在往同一个方向走,那就是让模型不仅能拟合数据,还要理解物理交互的因果结构,并且能够高效地泛化到新场景。这不正是咱们AI4S最关心的问题吗?好了,祝大家周末愉快,我们下周再见。