Paper Morning 2026-04-25

各位早上好，欢迎来到Paper Morning。今天想和大家聊一个我最近反复思考的命题：我们正处在一个“统一”的前夜。不管是模型架构、评估基准，还是跨实体的知识迁移，各种碎片化的尝试都在指向同一个方向——找到更本质的表示，让知识真正流动起来。先看第一篇论文，LLaDA2.0-Uni。这个工作把多模态理解和生成统一到了一个离散扩散大语言模型里。核心思路很巧妙：用SigLIP-VQ把视觉信号离散化，然后在backbone里用block-level masked diffusion同时处理文本和图像，最后通过一个扩散解码器把离散token还原成高清图像。这不是简单的多任务统一，而是从tokenization层面就打了通。我比较关注的是它的prefix-aware优化和few-step distillation，这些 inference efficiency 的改进让统一架构真正有了实用价值。更重要的是，它验证了一个观点：离散的masked diffusion不仅可以做生成，还能支撑高质量的理解任务，这对我们思考“什么是好的表示”很有启发。接下来这篇 UniT 就更有意思了，它试图解决一个非常实际的问题：怎么让人形机器人学会人类的行为？难点在于人的身体和机器人的身体结构完全不同，直接映射动作是行不通的。UniT 的核心洞察是：不同身体结构在物理世界中会产生相似的视觉后果。它通过一个tri-branch机制让动作预测视觉、视觉重建动作，互相校验，最后融合成一个共享的离散latent space。这其实是在构建一种“物理语言”——不关心你用什么身体，只关心你做了什么物理意义上的事情。这种思路如果扩展到科学计算里，是不是可以理解为：找到跨不同物理系统的通用表示？然后第三篇 WorldMark 很有意思，它不是提出新模型，而是给现有模型提供统一的竞技场。大家知道最近 interactive video world models 发展很快，但每个团队都在自己的benchmark上跑，根本没法比较。WorldMark 第一次提供了统一的action-mapping layer，相同的场景、相同的动作序列、相同的控制接口，让不同模型可以在完全公平的条件下被评估。这让我想到科学计算领域的benchmark问题——我们是不是也需要这样的“统一赛场”，让不同的PDE求解器、不同的neural operator可以在同一个测试集上被严格比较？第四篇 LLaTiSA 关注的是时间序列推理。它构建了一个四层的认知复杂度taxonomy，从视觉感知到语义理解，然后基于这个taxonomy发布了HiTSR数据集和LLaTiSA模型。这里我特别注意到它强调的“难度分层”思想——不是把所有任务混在一起，而是明确区分从低阶到高阶的认知需求。这对科学计算很有意义，因为真实的物理问题本身就有着不同的复杂度层级，我们是不是也应该为neural operator设计类似的分层benchmark？最后这篇 Near-Future Policy Optimization 关注的是强化学习的后训练。它提出的核心问题是：off-policy轨迹怎么选才能既保证质量又不要离当前策略太远？之前的方法要么从外部老师那里拿轨迹（质量高但太远），要么从自己历史里 replay（近但质量有天花板）。NPO的解决方案很有意思：学习一个near-future模型来预测未来的值函数，然后用它来筛选off-policy数据。这样既能找到高质量的轨迹，又能确保它们能被当前策略有效吸收。这种“在已知边界上微微向外探索”的思想，其实和我们在科学计算里做 extrapolation 很相似——不是盲目跳到完全未知的领域，而是在已有知识的边缘试探。好，今天的五篇论文听完，不知道你有没有感受到一个共同的脉搏：不管是模型架构、评估基准、知识迁移还是训练策略，大家都在尝试打破壁垒，建立更通用的表示和接口。这种“统一”的努力方向，其实在我们AI for Science领域也在发生——PDE foundation model、neural operator的预训练范式，都是在寻找跨不同物理问题的通用表示。区别可能在于，我们面对的挑战更艰巨，因为物理世界的多样性和约束比语言、图像、机器人动作更加严苛。但正因为如此，一旦突破，意义也会更加深远。今天的分享就到这里，我是Paper Morning，明天见。

Paper Morning 2026-04-25

本期涉及论文