Paper Morning 2026-04-25

2026-04-25

各位早上好,欢迎来到Paper Morning。 今天想和大家聊一个我最近反复思考的命题:我们正处在一个“统一”的前夜。不管是模型架构、评估基准,还是跨实体的知识迁移,各种碎片化的尝试都在指向同一个方向——找到更本质的表示,让知识真正流动起来。 先看第一篇论文,LLaDA2.0-Uni。这个工作把多模态理解和生成统一到了一个离散扩散大语言模型里。核心思路很巧妙:用SigLIP-VQ把视觉信号离散化,然后在backbone里用block-level masked diffusion同时处理文本和图像,最后通过一个扩散解码器把离散token还原成高清图像。这不是简单的多任务统一,而是从tokenization层面就打了通。我比较关注的是它的prefix-aware优化和few-step distillation,这些 inference efficiency 的改进让统一架构真正有了实用价值。更重要的是,它验证了一个观点:离散的masked diffusion不仅可以做生成,还能支撑高质量的理解任务,这对我们思考“什么是好的表示”很有启发。 接下来这篇 UniT 就更有意思了,它试图解决一个非常实际的问题:怎么让人形机器人学会人类的行为?难点在于人的身体和机器人的身体结构完全不同,直接映射动作是行不通的。UniT 的核心洞察是:不同身体结构在物理世界中会产生相似的视觉后果。它通过一个tri-branch机制让动作预测视觉、视觉重建动作,互相校验,最后融合成一个共享的离散latent space。这其实是在构建一种“物理语言”——不关心你用什么身体,只关心你做了什么物理意义上的事情。这种思路如果扩展到科学计算里,是不是可以理解为:找到跨不同物理系统的通用表示? 然后第三篇 WorldMark 很有意思,它不是提出新模型,而是给现有模型提供统一的竞技场。大家知道最近 interactive video world models 发展很快,但每个团队都在自己的benchmark上跑,根本没法比较。WorldMark 第一次提供了统一的action-mapping layer,相同的场景、相同的动作序列、相同的控制接口,让不同模型可以在完全公平的条件下被评估。这让我想到科学计算领域的benchmark问题——我们是不是也需要这样的“统一赛场”,让不同的PDE求解器、不同的neural operator可以在同一个测试集上被严格比较? 第四篇 LLaTiSA 关注的是时间序列推理。它构建了一个四层的认知复杂度taxonomy,从视觉感知到语义理解,然后基于这个taxonomy发布了HiTSR数据集和LLaTiSA模型。这里我特别注意到它强调的“难度分层”思想——不是把所有任务混在一起,而是明确区分从低阶到高阶的认知需求。这对科学计算很有意义,因为真实的物理问题本身就有着不同的复杂度层级,我们是不是也应该为neural operator设计类似的分层benchmark? 最后这篇 Near-Future Policy Optimization 关注的是强化学习的后训练。它提出的核心问题是:off-policy轨迹怎么选才能既保证质量又不要离当前策略太远?之前的方法要么从外部老师那里拿轨迹(质量高但太远),要么从自己历史里 replay(近但质量有天花板)。NPO的解决方案很有意思:学习一个near-future模型来预测未来的值函数,然后用它来筛选off-policy数据。这样既能找到高质量的轨迹,又能确保它们能被当前策略有效吸收。这种“在已知边界上微微向外探索”的思想,其实和我们在科学计算里做 extrapolation 很相似——不是盲目跳到完全未知的领域,而是在已有知识的边缘试探。 好,今天的五篇论文听完,不知道你有没有感受到一个共同的脉搏:不管是模型架构、评估基准、知识迁移还是训练策略,大家都在尝试打破壁垒,建立更通用的表示和接口。这种“统一”的努力方向,其实在我们AI for Science领域也在发生——PDE foundation model、neural operator的预训练范式,都是在寻找跨不同物理问题的通用表示。区别可能在于,我们面对的挑战更艰巨,因为物理世界的多样性和约束比语言、图像、机器人动作更加严苛。但正因为如此,一旦突破,意义也会更加深远。 今天的分享就到这里,我是Paper Morning,明天见。

本期涉及论文