Paper Morning 2026-06-21
2026-06-21
各位早上好,周末的Paper Morning如约而至。周末是沉淀思考的好时机,今天想和大家聊几篇有意思的论文,它们看似分散,但背后其实都指向同一个趋势——我们正在从“完成任务”走向“理解物理世界”。
先来看一篇机器人操作的工作。DragMesh-2研究的是灵巧手如何与关节物体交互,比如打开一个抽屉或者拧开瓶盖。这个问题比抓取静态物体要困难得多,因为关节物体的运动不是直接可控的,你只能通过手与把手的持续接触来间接驱动它。传统方法往往依赖开环的轨迹重放,但这种方式无法建模接触力学的动态变化。这篇工作提出了一个物理可行的策略学习方法,让多指手能够在交互过程中感知并调整接触力。这个方向对家用机器人和人形机器人非常重要,因为我们生活的环境里到处是门、抽屉、开关这些关节物体。灵巧操作的进步,本质上是在为未来的通用机器人构建物理交互的基础能力。
如果说DragMesh-2关注的是“如何动手”,那MolmoMotion关注的就是“如何预判运动”。它提出了一个叫goal-conditioned 3D点运动预测的任务:给出一段视觉历史、物体上的三维查询点,以及自然语言描述的目标,让模型预测每个点未来的三维轨迹。这里有一个很关键的insight:用世界坐标系中的三维点作为表示是class-agnostic的、view-stable的,而且直接服务于下游任务。更有意思的是他们构建的数据集MolmoMotion-1M,包含了一百多万条带动作描述的三维点轨迹。这让我想到,这其实是在为物理智能体构建一种“运动语言”——不是只让机器人学会某个具体动作,而是让它理解运动本身的几何结构和语义内涵。语言描述与三维轨迹的结合,也许是走向通用物理智能的一条路径。
接着来看一篇 benchmark 的工作。LiveCodeBench大家可能不陌生,它是一个代码生成的评估基准,通过持续加入新题目和控制发布日期来防止数据污染,在LLM评估领域很有影响力。但它之前只支持Python。Multi-LCB把它扩展到了十二种编程语言,保留原有污染控制机制的同时,测试LLM在代码能力上的跨语言泛化能力。很有趣的是,早期实验显示,模型在不同语言上的表现差异很大——有些模型在某些语言上表现优异,但在另一些语言上却大幅下降。这说明我们之前对LLM代码能力的评估可能过于乐观了,真正考验泛化性的时刻才刚开始。这个工作也提醒我们,foundation model的scalability不仅体现在数据量和参数上,还体现在跨任务、跨领域的迁移能力上。
最后一篇Playful Agentic Robot Learning,非常有想法。它研究的是如何让机器人在没有明确任务指令的情况下,通过“玩”来学习技能。传统的agent系统都是任务驱动的,给定目标才能行动,但这篇工作提出,机器人应该能够在play阶段自主探索、发现问题、积累可复用的技能库。这个思路其实很像人类小孩的学习方式——在没有考试压力的时候,通过玩耍建立对世界的直觉和身体能力。他们提出的RATs架构能够在玩耍中提出新的探索任务、执行代码策略、诊断失败并逐步提炼出持久的技能模块。我觉得这个方向很有启发性,它其实是在问一个问题:通用智能体需要的“元能力”到底是什么?也许不是某个具体的任务技能,而是在开放环境中自我引导学习的能力。
好,让我们回到今天的整体观察。这五篇论文看起来横跨机器人、CV、LLM评估,但它们都在回答一个共同的问题:如何让AI系统更好地理解并交互于物理世界——无论是通过接触力学的建模、三维运动轨迹的预测、跨语言的泛化,还是自主探索学习。这条线索其实和AI4S的核心关切是相通的:我们需要的不仅是拟合数据,更是理解物理规律、建立世界模型、在真实约束下做决策。当机器人在尝试打开一个抽屉时,它做的事情和科学家在求解一个PDE时做的事情,在某种意义上是类似的——都是在物理约束下寻找可行的演化路径。也许明天的AI for Science,会从这些看似不相关的领域中汲取更多的养分。早上就到这里,祝大家周末愉快。