Paper Morning 2026-04-26

各位早上好，Paper Morning开播了。今天想和大家聊一个很有意思的趋势，就是基础模型正在从“理解”走向“交互”，从“观察”走向“行动”。这个转变在NLP和CV领域已经很明显了，而现在它正在向更广泛的物理世界延伸。先看第一篇，LLaDA2.0-Uni。这是一个统一的多模态离散扩散大语言模型，它的核心理念很有意思：把视觉和文本都变成离散的token，然后在同一个transformer框架下做masked diffusion。这和我们过去看到的diffusion model不太一样，它不是逐步去噪，而是像BERT一样mask掉token然后预测。让我觉得有意思的是它的训练思路——通过视觉编码器把图像离散化，然后统一用block-level的mask策略。这其实呼应了我之前提到的“一切皆可tokenize”的趋势。当我们把物理信号、时空数据也都做成离散表示，是不是也能用类似的方法统一处理？这为未来科学计算中的多模态学习提供了一个参考架构。接下来这篇UniT就更直接了，它解决的是人形机器人学习中的一个痛点：怎么把人类的行为数据迁移到机器人身上。大家知道 human-to-robot transfer 是个大难题，因为人的关节和机器人的关节结构完全不同。UniT的思路很巧妙，它不直接映射动作空间，而是建立一个“物理结果”的桥梁：让动作去预测视觉，观察视觉来重建动作，然后用第三个分支融合这两个信息。这本质上是让模型学习什么样的动作序列会产生什么样的视觉后果，从而绕过 kinematic mismatch。我把它理解为一种“物理语言”的对齐——不是对齐表面形式，而是对齐物理因果。这种思路对我们在科学计算中做跨尺度的模型迁移很有启发：有时候我们不需要精确对应底层结构，只要抓住系统的本质行为就够了。然后WorldMark这个工作很有意思，它是一个交互式视频世界模型的benchmark。过去的世界模型比如Genie、YUME，每个团队都在自己的数据集上跑，出来的指标根本无法比较。WorldMark做了件基础但重要的事：统一的场景、统一的action接口、统一的可视化标准。这让我想到科学计算领域benchmark的重要性——当年ImageNet对CV的推动有多大，大家都知道。世界模型作为一个新兴方向，急需这样的基础设施。它的action-mapping layer尤其有意思，把WASD这样的抽象控制信号映射到不同模型的输入空间，这种解耦设计值得借鉴。第四篇LLaTiSA关注的是时间序列推理。它提出了一个四层的认知复杂度taxonomy，从视觉模式识别到语义理解，并且构建了一个83k规模的数据集。这让我想到，时间序列可能是下一个“视觉+NLP”级别的多模态融合战场。物理信号、金融数据、传感器数据——这些本质上都是时间序列，而现有的VLMs对这类信息的理解还很初级。LLaTiSA的思路是把时序数据做可视化，然后用VLM来处理，这其实也是一种“视觉桥接”的策略。最后这篇Near-Future Policy Optimization关注的是强化学习中的off-policy数据问题。它提出的核心洞察很有意思：有效的学习信号不是简单的Q值高就行，还要看V值低——也就是样本既要质量够高，又要和当前策略足够接近，这样学习效率才最高。NPO通过一个简单的方法：把当前policy roll out出来的 trajectory 做轻度改进，然后作为off-policy数据混入训练。这个思路很直觉，但背后有清晰的理论解释。在物理模拟和机器人控制中，sample efficiency 一直是痛点，这种混合策略的思路或许能为我们带来启发。好，总结一下今天的观察。我看到一条清晰的脉络：无论是多模态大模型、人形机器人控制，还是世界模型，大家都在做同一件事——建立某种“统一表示”或“统一接口”，让不同的模态、不同的智能体、不同的任务能够在同一个框架下对话。这种统一化的努力，某种程度上呼应了我们在AI4S中追求的“PDE as a language”的理想。当离散化、tokenization、foundation model这些NLP领域的思想逐渐渗透到物理世界，我们也许正在见证一种新的计算范式的诞生。今天就到这里，各位周末愉快。

Paper Morning 2026-04-26

本期涉及论文