Paper Morning 2026-06-21

各位早上好，周末的Paper Morning如约而至。周末是沉淀思考的好时机，今天想和大家聊几篇有意思的论文，它们看似分散，但背后其实都指向同一个趋势——我们正在从“完成任务”走向“理解物理世界”。先来看一篇机器人操作的工作。DragMesh-2研究的是灵巧手如何与关节物体交互，比如打开一个抽屉或者拧开瓶盖。这个问题比抓取静态物体要困难得多，因为关节物体的运动不是直接可控的，你只能通过手与把手的持续接触来间接驱动它。传统方法往往依赖开环的轨迹重放，但这种方式无法建模接触力学的动态变化。这篇工作提出了一个物理可行的策略学习方法，让多指手能够在交互过程中感知并调整接触力。这个方向对家用机器人和人形机器人非常重要，因为我们生活的环境里到处是门、抽屉、开关这些关节物体。灵巧操作的进步，本质上是在为未来的通用机器人构建物理交互的基础能力。如果说DragMesh-2关注的是“如何动手”，那MolmoMotion关注的就是“如何预判运动”。它提出了一个叫goal-conditioned 3D点运动预测的任务：给出一段视觉历史、物体上的三维查询点，以及自然语言描述的目标，让模型预测每个点未来的三维轨迹。这里有一个很关键的insight：用世界坐标系中的三维点作为表示是class-agnostic的、view-stable的，而且直接服务于下游任务。更有意思的是他们构建的数据集MolmoMotion-1M，包含了一百多万条带动作描述的三维点轨迹。这让我想到，这其实是在为物理智能体构建一种“运动语言”——不是只让机器人学会某个具体动作，而是让它理解运动本身的几何结构和语义内涵。语言描述与三维轨迹的结合，也许是走向通用物理智能的一条路径。接着来看一篇 benchmark 的工作。LiveCodeBench大家可能不陌生，它是一个代码生成的评估基准，通过持续加入新题目和控制发布日期来防止数据污染，在LLM评估领域很有影响力。但它之前只支持Python。Multi-LCB把它扩展到了十二种编程语言，保留原有污染控制机制的同时，测试LLM在代码能力上的跨语言泛化能力。很有趣的是，早期实验显示，模型在不同语言上的表现差异很大——有些模型在某些语言上表现优异，但在另一些语言上却大幅下降。这说明我们之前对LLM代码能力的评估可能过于乐观了，真正考验泛化性的时刻才刚开始。这个工作也提醒我们，foundation model的scalability不仅体现在数据量和参数上，还体现在跨任务、跨领域的迁移能力上。最后一篇Playful Agentic Robot Learning，非常有想法。它研究的是如何让机器人在没有明确任务指令的情况下，通过“玩”来学习技能。传统的agent系统都是任务驱动的，给定目标才能行动，但这篇工作提出，机器人应该能够在play阶段自主探索、发现问题、积累可复用的技能库。这个思路其实很像人类小孩的学习方式——在没有考试压力的时候，通过玩耍建立对世界的直觉和身体能力。他们提出的RATs架构能够在玩耍中提出新的探索任务、执行代码策略、诊断失败并逐步提炼出持久的技能模块。我觉得这个方向很有启发性，它其实是在问一个问题：通用智能体需要的“元能力”到底是什么？也许不是某个具体的任务技能，而是在开放环境中自我引导学习的能力。好，让我们回到今天的整体观察。这五篇论文看起来横跨机器人、CV、LLM评估，但它们都在回答一个共同的问题：如何让AI系统更好地理解并交互于物理世界——无论是通过接触力学的建模、三维运动轨迹的预测、跨语言的泛化，还是自主探索学习。这条线索其实和AI4S的核心关切是相通的：我们需要的不仅是拟合数据，更是理解物理规律、建立世界模型、在真实约束下做决策。当机器人在尝试打开一个抽屉时，它做的事情和科学家在求解一个PDE时做的事情，在某种意义上是类似的——都是在物理约束下寻找可行的演化路径。也许明天的AI for Science，会从这些看似不相关的领域中汲取更多的养分。早上就到这里，祝大家周末愉快。

Paper Morning 2026-06-21

本期涉及论文