Paper Morning 2026-04-26

2026-04-26

各位早上好,Paper Morning开播了。 今天想和大家聊一个很有意思的趋势,就是基础模型正在从“理解”走向“交互”,从“观察”走向“行动”。这个转变在NLP和CV领域已经很明显了,而现在它正在向更广泛的物理世界延伸。 先看第一篇,LLaDA2.0-Uni。这是一个统一的多模态离散扩散大语言模型,它的核心理念很有意思:把视觉和文本都变成离散的token,然后在同一个transformer框架下做masked diffusion。这和我们过去看到的diffusion model不太一样,它不是逐步去噪,而是像BERT一样mask掉token然后预测。让我觉得有意思的是它的训练思路——通过视觉编码器把图像离散化,然后统一用block-level的mask策略。这其实呼应了我之前提到的“一切皆可tokenize”的趋势。当我们把物理信号、时空数据也都做成离散表示,是不是也能用类似的方法统一处理?这为未来科学计算中的多模态学习提供了一个参考架构。 接下来这篇UniT就更直接了,它解决的是人形机器人学习中的一个痛点:怎么把人类的行为数据迁移到机器人身上。大家知道 human-to-robot transfer 是个大难题,因为人的关节和机器人的关节结构完全不同。UniT的思路很巧妙,它不直接映射动作空间,而是建立一个“物理结果”的桥梁:让动作去预测视觉,观察视觉来重建动作,然后用第三个分支融合这两个信息。这本质上是让模型学习什么样的动作序列会产生什么样的视觉后果,从而绕过 kinematic mismatch。我把它理解为一种“物理语言”的对齐——不是对齐表面形式,而是对齐物理因果。这种思路对我们在科学计算中做跨尺度的模型迁移很有启发:有时候我们不需要精确对应底层结构,只要抓住系统的本质行为就够了。 然后WorldMark这个工作很有意思,它是一个交互式视频世界模型的benchmark。过去的世界模型比如Genie、YUME,每个团队都在自己的数据集上跑,出来的指标根本无法比较。WorldMark做了件基础但重要的事:统一的场景、统一的action接口、统一的可视化标准。这让我想到科学计算领域benchmark的重要性——当年ImageNet对CV的推动有多大,大家都知道。世界模型作为一个新兴方向,急需这样的基础设施。它的action-mapping layer尤其有意思,把WASD这样的抽象控制信号映射到不同模型的输入空间,这种解耦设计值得借鉴。 第四篇LLaTiSA关注的是时间序列推理。它提出了一个四层的认知复杂度taxonomy,从视觉模式识别到语义理解,并且构建了一个83k规模的数据集。这让我想到,时间序列可能是下一个“视觉+NLP”级别的多模态融合战场。物理信号、金融数据、传感器数据——这些本质上都是时间序列,而现有的VLMs对这类信息的理解还很初级。LLaTiSA的思路是把时序数据做可视化,然后用VLM来处理,这其实也是一种“视觉桥接”的策略。 最后这篇Near-Future Policy Optimization关注的是强化学习中的off-policy数据问题。它提出的核心洞察很有意思:有效的学习信号不是简单的Q值高就行,还要看V值低——也就是样本既要质量够高,又要和当前策略足够接近,这样学习效率才最高。NPO通过一个简单的方法:把当前policy roll out出来的 trajectory 做轻度改进,然后作为off-policy数据混入训练。这个思路很直觉,但背后有清晰的理论解释。在物理模拟和机器人控制中,sample efficiency 一直是痛点,这种混合策略的思路或许能为我们带来启发。 好,总结一下今天的观察。我看到一条清晰的脉络:无论是多模态大模型、人形机器人控制,还是世界模型,大家都在做同一件事——建立某种“统一表示”或“统一接口”,让不同的模态、不同的智能体、不同的任务能够在同一个框架下对话。这种统一化的努力,某种程度上呼应了我们在AI4S中追求的“PDE as a language”的理想。当离散化、tokenization、foundation model这些NLP领域的思想逐渐渗透到物理世界,我们也许正在见证一种新的计算范式的诞生。 今天就到这里,各位周末愉快。

本期涉及论文