Paper Morning 2026-04-22

各位早上好，周三的Paper Morning如约而至。今天想先从一个观察说起。上周我们还在讨论大模型如何改变科学研究的范式，但这周业界的一批新工作其实在悄悄回答另一个问题：当生成式AI已经能生成逼真的视频、3D内容、甚至能“理解”物理交互时，这些能力能不能反过来帮助我们更好地建模物理世界？先看CoInteract这个工作，它用Diffusion Transformer来合成人和物体的交互视频。表面上看这是一个视觉生成任务，但它解决的两个核心问题——手部和面部的结构稳定性、以及物理上合理的接触——其实正是物理模拟领域的经典难题。研究者引入了一个叫Human-Aware Mixture-of-Experts的模块，让不同的“专家”分别处理不同身体区域，这其实暗示了一个思路：与其让一个统一的模型学习所有物理交互，不如让模型学会对不同物理场景进行针对性建模。这个思想其实和我们之前讨论过的neural operator的分块处理策略有相通之处。然后是AnyRecon，它做的是任意视角的3D重建。传统方法受限于稀疏视角的几何一致性，而他们用视频扩散模型来生成新视角。关键创新在于引入了一个capture view cache来维护全局场景记忆，避免了时间维度的信息压缩。这个设计让我想到科学计算中多尺度问题的处理方式——有时候我们需要保留不同层级的信息，而不是一股脑压缩到一个隐空间里。虽然这个工作是做3D重建的，但它处理视角多样性和几何一致性的方法，对处理多模态科学数据可能有一定启发。 Tstars-Tryon是一个商业级的虚拟试穿系统。它展示了一个有趣的趋势：生成式AI正在从“能生成”走向“能商用”。对咱们做AI4S的人来说，这背后有个更本质的问题值得思考：当生成模型能处理极端姿态、光照变化、运动模糊这些分布外样本时，是不是也意味着它们学到了某种更强的物理先验？如果能把这种鲁棒性迁移到物理模拟中，也许能帮助我们构建对扰动更不敏感的科学模型。 AgentSPEX是一个关于agent工作流规范化的工具。它试图用一种声明式的语言来描述agent的推理和工具调用流程。这让我想到一个问题：咱们做科学计算的agent，是不是也需要一种更结构化的描述方式？现在的科学研究流程往往涉及复杂的推理链、工具调用和状态管理，如果能用类似的方式显式地建模，也许能让AI辅助科学发现变得更加可控。最后是UniT，这个工作试图建立人做动作到人形机器人执行之间的迁移。它的核心思想很有意思：不同身体的运动学可能不同，但视觉结果是通用的。所以它让动作去预测视觉，用视觉来过滤掉不相关的干扰信息。这其实回答了一个科学计算中的根本问题：当我们想把一个模型从一种场景迁移到另一种场景时，应该迁移什么？UniT的答案是“物理后果”，而不是直接的参数映射。这个思路对于我们思考如何在不同物理问题之间迁移模型，同样有参考价值。好了，今天的播报就到这里。回头看这五篇论文，虽然表面上看是视觉生成和agent相关的工作，但它们都在回答一个共同的问题：如何在保持物理一致性、跨域迁移、长期记忆这些能力的同时，让模型真正理解我们所在意的物理世界。这个趋势或许意味着，生成式AI的下一步突破，不在于生成更加逼真的像素，而在于像素背后那些不变的物理规律。咱们明天接着聊。

Paper Morning 2026-04-22

本期涉及论文