Paper Morning 2026-04-22

2026-04-22

各位早上好,周三的Paper Morning如约而至。 今天想先从一个观察说起。上周我们还在讨论大模型如何改变科学研究的范式,但这周业界的一批新工作其实在悄悄回答另一个问题:当生成式AI已经能生成逼真的视频、3D内容、甚至能“理解”物理交互时,这些能力能不能反过来帮助我们更好地建模物理世界? 先看CoInteract这个工作,它用Diffusion Transformer来合成人和物体的交互视频。表面上看这是一个视觉生成任务,但它解决的两个核心问题——手部和面部的结构稳定性、以及物理上合理的接触——其实正是物理模拟领域的经典难题。研究者引入了一个叫Human-Aware Mixture-of-Experts的模块,让不同的“专家”分别处理不同身体区域,这其实暗示了一个思路:与其让一个统一的模型学习所有物理交互,不如让模型学会对不同物理场景进行针对性建模。这个思想其实和我们之前讨论过的neural operator的分块处理策略有相通之处。 然后是AnyRecon,它做的是任意视角的3D重建。传统方法受限于稀疏视角的几何一致性,而他们用视频扩散模型来生成新视角。关键创新在于引入了一个capture view cache来维护全局场景记忆,避免了时间维度的信息压缩。这个设计让我想到科学计算中多尺度问题的处理方式——有时候我们需要保留不同层级的信息,而不是一股脑压缩到一个隐空间里。虽然这个工作是做3D重建的,但它处理视角多样性和几何一致性的方法,对处理多模态科学数据可能有一定启发。 Tstars-Tryon是一个商业级的虚拟试穿系统。它展示了一个有趣的趋势:生成式AI正在从“能生成”走向“能商用”。对咱们做AI4S的人来说,这背后有个更本质的问题值得思考:当生成模型能处理极端姿态、光照变化、运动模糊这些分布外样本时,是不是也意味着它们学到了某种更强的物理先验?如果能把这种鲁棒性迁移到物理模拟中,也许能帮助我们构建对扰动更不敏感的科学模型。 AgentSPEX是一个关于agent工作流规范化的工具。它试图用一种声明式的语言来描述agent的推理和工具调用流程。这让我想到一个问题:咱们做科学计算的agent,是不是也需要一种更结构化的描述方式?现在的科学研究流程往往涉及复杂的推理链、工具调用和状态管理,如果能用类似的方式显式地建模,也许能让AI辅助科学发现变得更加可控。 最后是UniT,这个工作试图建立人做动作到人形机器人执行之间的迁移。它的核心思想很有意思:不同身体的运动学可能不同,但视觉结果是通用的。所以它让动作去预测视觉,用视觉来过滤掉不相关的干扰信息。这其实回答了一个科学计算中的根本问题:当我们想把一个模型从一种场景迁移到另一种场景时,应该迁移什么?UniT的答案是“物理后果”,而不是直接的参数映射。这个思路对于我们思考如何在不同物理问题之间迁移模型,同样有参考价值。 好了,今天的播报就到这里。回头看这五篇论文,虽然表面上看是视觉生成和agent相关的工作,但它们都在回答一个共同的问题:如何在保持物理一致性、跨域迁移、长期记忆这些能力的同时,让模型真正理解我们所在意的物理世界。这个趋势或许意味着,生成式AI的下一步突破,不在于生成更加逼真的像素,而在于像素背后那些不变的物理规律。咱们明天接着聊。

本期涉及论文