Paper Morning 2026-05-07

各位早上好，Paper Morning又和各位见面了。今天想聊的几篇论文有一个共同的脉络：大家在把大模型时代积累的方法论——预训练、测试时扩展、奖励建模——正在迁移到物理世界的建模和交互中。这个趋势其实和我们做科学计算的人非常相关，因为物理模拟本质上也是一种world model的构建。先看HERMES++，这篇工作试图统一自动驾驶场景中的3D场景理解和未来几何预测。过去的方法要么侧重于语义理解，要么侧重于生成未来帧，但两者割裂。作者用BEV表示把多视角信息统一起来，再结合一个能预测几何演化的模块，实现理解与生成的闭环。说实话，这个思路在物理仿真里也很常见——我们不也是希望模型既懂得方程的语义，又能预测系统的演化吗？只不过他们面对的是街道场景，我们面对的是PDE定义的物理场。然后是两篇关于流式视频生成的工作，非常有意思。Stream-T1提出了一种针对流式视频的测试时扩展方法。我们知道视频生成通常需要大量去噪步，测试时成本很高。但流式生成的特性恰好适合做测试时扩展——因为它是分块合成的，每块只需要少量步数就可以达到可接受质量。Stream-T1利用这个特点，设计了噪声传播和少数步合成的策略，在保持质量的同时大幅降低计算开销。这让我想到我们做PDE求解时经常用的自适应步长策略，核心思想其实是相通的：在需要精细处理的地方多投入计算资源，在相对平滑的区域节约成本。第三篇Stream-R1则从另一个角度切入——如何更好地蒸馏一个已有的视频生成模型。他们提出两个很有意思的观察：第一，不同rollout之间的监督可靠性是不同的；第二，即使是同一个输出，不同空间区域和时间帧的改进潜力也不同。过去的蒸馏方法把这些都一视同仁，导致学生模型浪费容量去学习已经很好的部分。他们设计了一种基于可靠性-困惑度的奖励分配机制，让模型更聪明地分配学习资源。这对我们做科学计算的模型压缩很有启发——我们在训练operator网络时，是否也应该对不同复杂度区域区别对待？第四篇OpenSearch-VL关注的是多模态搜索agent的训练配方。这个工作的核心贡献是开源了一套完整的数据构建和训练流程，包括维基百科路径采样、模糊实体重写和视觉grounding等技术。他们的目标是让模型能够进行多步推理和证据验证。这让我想到我们在构建科学数据集时同样面临的挑战——如何设计数据让它包含足够的推理链条，而不是简单的模式匹配。最后是RLDX-1，一个面向灵巧操作的机器人策略。他们提出了多流动作变换器架构，用模态特定的流来处理异构信息，再通过跨模态自注意力来融合。这两年视觉语言动作模型发展很快，但大多数在需要运动感知、记忆决策和物理感知的复杂任务上仍然吃力。RLDX-1试图通过架构创新来解决这个问题。今天的这几篇论文看似分散，但实际上都指向同一个方向：如何让AI系统更好地理解和交互物理世界。无论是自动驾驶的世界模型、视频生成的物理一致性、还是机器人的灵巧操作，本质上都是在构建能够推理物理规律的智能体。这种趋势会不会在未来几年和科学计算产生更深的交汇？我觉得值得关注。

Paper Morning 2026-05-07

本期涉及论文