Paper Morning 2026-06-16
2026-06-16
各位早上好,Paper Morning又和大家见面了。
今天想先从一个更大的话题聊起。我们一直在聊AI for Science里foundation model的进展,但可能忽略了一个很重要的问题:这些模型到底能不能真的理解物理世界?这里说的理解,不是说能预测一个方程的解,而是能像人一样,在3D空间里推理因果关系。今天这几篇论文,恰恰从不同角度触碰了这个问题。
第一篇是DreamX-World 1.0,这是一个通用的交互式世界模型。它能从文字或图像生成可控的长时序视频,而且支持相机导航、回到之前观察过的区域、以及根据提示触发事件。作者用Unreal Engine渲染数据、游戏录像和真实世界视频来构建数据引擎,提出了一个叫E-PRoPE的轻量级相机位置编码,把双向视频生成器通过因果强制和长 rollout训练改造成了自回归的世界模型。这篇工作的意义不在于又做了一个视频生成器,而在于它试图让模型学会理解3D空间的连续性。一个模型如果能在虚拟环境里导航、记住之前见过的东西、预测动作的长期后果,这其实就是在构建一种对物理世界的隐式理解。当然,现在它主要还是在游戏和渲染数据上训练,离真正的物理模拟还有距离,但它提醒我们:或许世界模型的下一步,不是只追求生成质量,而是追求空间推理的能力。
聊完世界模型,第二篇 GAM (Geometric Action Model) 把这个问题说得更直接了。作者指出,现在的视觉语言动作模型和视频动作模型虽然继承了大规模基础模型的语义先验,但本质上还是在2D图像或2D latent空间里操作,缺少对3D几何的显式建模。他们提出了一个很直接的做法:用预训练的3D几何基础模型作为共享骨架,分离出浅层作为观察编码器,深层作为时序预测和动作解码器。这相当于把一个已经学会理解3D结构的模型,直接塞进了机器人policy的学习框架里。这个思路我觉得很务实——与其从零学3D几何,不如借用现成的几何基础模型。它和之前我们聊过的neural operator有异曲同工之处:都是把“学会某种结构”的能力迁移到下游任务,只是这里迁移的是3D几何理解,而不是PDE的解算子。
有意思的是,GAM解决的是机器人怎么理解3D世界,而第三篇 JoyAI-VL-Interaction 则在问一个更根本的问题:AI需不需要时时刻时刻在线?现在的模型都是“被动响应”模式——用户问一句,它答一句。但作者认为,真正智能的交互应该是模型像人一样“在场”,持续观察发生了什么,然后自己判断要不要介入、什么时候介入。他们提出了一个实时视觉语言交互框架,模型能主动监控场景、实时交互,并把困难问题委托给后台模型。这其实隐含了一个很重要的认知:我们以前把AI当作工具,但现在是不是应该把AI当作一个“在场的协作者”?这个转变听起来有点抽象,但它可能会深刻影响我们怎么设计人机交互的界面,以及怎么训练模型的多模态理解能力。
如果说前三篇还在探索“AI怎么理解世界”,那第四篇 Data Journalist Agent 就把AI拉回了它最擅长的老本行——处理信息。这篇工作提出了一个端到端的数据新闻agent,能把原始数据变成可验证的多模态报道。它有两个创新:一是每个论断都要能追溯到原始数据、代码或外部引用,二是文章本身是多模态的。听起来像是做了一个“数据记者”,但我更愿意把它理解为一种新型的科学交流范式。我们做AI for Science的人,经常被一个问题困扰:怎么让非专业的人理解复杂的科学发现?Data Journalist Agent给出了一个可能的答案——不是我们写一篇解释性文章,而是让AI学会从数据出发,构建一个可信的、视觉化的叙事。这个思路如果能和科学可视化结合起来,可能会改变科普甚至科研交流的方式。
最后一篇 VibeThinker-3B 很有意思,它问了一个很实际的问题:小模型能不能做可验证的推理?3B参数的模型,通过课程式微调、多领域强化学习和离线自蒸馏,在AIME26上达到了94.3分,用test-time scaling能提到97.1。这个数字意味着什么?意味着一个小模型通过合理的训练策略,已经能在数学推理上接近大模型的表现。这对我们做AI for Science的启发是:也许不需要动辄几百亿参数的模型才能做科学计算,关键在于训练范式和推理方式。test-time scaling在数学推理上成功了,那在PDE求解上是不是也能work?这可能是一个值得探索的方向。
好,今天的播报差不多了。我发现一个有趣的线索:这几篇论文虽然领域不同,但都在回答一个共同的问题——AI怎么才能真正“理解”而不是“拟合”?世界模型要在3D空间里推理,机器人policy要显式建模几何,交互模型要学会主动“在场”,数据记者要让每个论断可追溯,小模型要用test-time scaling提升推理质量。这些尝试都在指向同一个方向:AI的下一步不是更大的参数,而是更强的结构性理解和推理能力。这可能是比scaling law更值得关注的事情。咱们明天接着聊。