Paper Morning 2026-04-24
2026-04-24
各位早上好,Paper Morning 开播了。
今天想先聊一篇把 diffusion model 和 LLM 做深度融合的工作。LLaDA2.0-Uni 这篇论文提出了一个统一的离散扩散大语言模型框架,它把视觉信号通过 SigLIP-VQ 做离散化,然后在一个基于 MoE 的 transformer 主干里同时做文本和图像的块级 mask 扩散,最后用 diffusion decoder 把离散 token 重建为高清图像。这两年 diffusion model 在生成任务上火力全开,而 LLM 在理解任务上稳坐钓鱼台,如何把两者统一到一个模型里是很多人关心的问题。这篇工作的价值不在于刷了多少个 benchmark,而在于它验证了离散扩散这条技术路径确实可以支撑统一的多模态理解与生成。熟悉 NLP 的朋友可能知道,scaling law 在语言模型里已经被验证得很充分了,但在 diffusion + LLM 这个新范式下,scaling 特性是否还能保持其实是不太清楚的。这篇工作给出了初步的证据,告诉我们这条路可能走得通。不过也要提醒一句,它在生成质量上“匹配 specialized VLM”这个表述意味着还没有显著超越专用模型,统一框架的优势更多体现在训练和推理的效率整合上,而不是性能上的跨越式突破。
聊完多模态大模型,往前走一点,我们来看看机器人领域的一个有意思的尝试。UniT 这篇工作提出了一个统一物理语言的概念,目的是让人做动作的视频数据能迁移到类人机器人身上。大家知道现在具身智能的一个核心瓶颈是机器人数据太少了,而人类的第一人称视频数据海量,但直接用人体动作去控制一个结构完全不同的类人机器人,关节对不上啊。UniT 的思路很有意思,它说 kinematics 不一样没关系,但我们共享同一个物理世界啊,你的动作最终产生的视觉后果是一样的。它用了一个三分支的跨重建机制:动作预测视觉来把运动学锚定到物理结果,视觉重建动作来过滤掉不相关的视觉干扰,然后一个融合分支把两个净化后的模态编码成共享的离散 latent。这让我想起去年物理信息神经网络里很火的“宇称等价”那类思想——有时候不用纠结底层结构的差异,而是直接去对齐更高层的可观测量。这篇工作在 human-to-humanoid 这个具体场景下把这个想法落下来了。不过我有点好奇的是,它对“通用物理语言”的定义到底有多通用,如果换个其他形态的机器人还行不行,这是后续值得观察的点。
时间关系,我们快速过两篇。LLaTiSA 这篇是关于时间序列推理的,它提出了一个四层的认知复杂度分类体系,然后做了一个包含八万多样本的分层数据集 HiTSR,并基于此训练了一个把视觉模式识别和精数值表格结合起来的 VLM。坦率地说,时间序列 reasoning 这个方向在 AI4S 里被关注得不够,大家更多的注意力放在序列预测和异常检测上。这篇工作的意义在于它把“推理”这件事在时间序列上做了一次系统性的形式化,这对于我们未来构建时间序列的基础模型是有参考价值的。科学计算里有大量的时序数据,天气、气象、供应链、金融,如果模型只停留在“预测下一个点”而不能做多步推理和因果归因,那它的应用场景就会很受限。
最后一篇 WorldMark 是关于交互式视频世界模型的 benchmark。现在 Genie、YUME 这些工作出来得很快,但各家用各自的场景和轨迹,跨模型比较几乎不可能。WorldMark 统一了动作空间、测试场景和评估接口,这其实是基础设施建设的工作。大家别小看这种看起来“不够性感”的工作,当年 ImageNet 在计算机视觉里起到的作用就是定标准、立跑道,让所有人能在同一个基准上卷方法论。这篇工作算是给交互式世界模型领域铺了这样一段路。
好,简单总结一下今天的观察。五篇论文看下来,有一个很清晰的脉络在浮现:无论是多模态大模型、机器人策略、还是时间序列推理,大家都在往“统一”的方向走——统一的表示、统一的数据格式、统一的评估基准。这背后其实是整个 AI4S 领域从“做单点模型”向“建基础设施”转变的一个缩影。当我们有了好的 benchmark、好的数据标准、好的预训练范式,很多之前卡脖子的问题会自然松动。这种范式转移其实和当年 NLP 里从 task-specific 模型走向 foundation model 的路径非常像,只是现在我们是在科学计算这个更复杂的战场上重新经历一遍。早安。