Paper Morning 2026-05-02

各位早上好，周六的早晨，Paper Morning又和大家见面了。今天想和大家聊一个正在发生的趋势，我觉得它可能会深刻影响我们AI for Science社区接下来的研究方向。先从一篇视野宏观的文章说起。Visual Generation in the New Era这篇论文提出了一个五级分类框架，把视觉生成从最早的原子级生成，到条件生成，再到上下文生成、Agentic生成，最后到World-Modeling生成。作者们认为，视觉生成领域正在从“看起来像”的像素合成阶段，走向“理解结构、动态和因果关系”的智能生成阶段。这个判断其实呼应了我们AI4S领域一个核心关切：无论是视觉模型还是物理模型，最终都需要从被动渲染走向主动推理。这篇是HuggingFace上的热门paper，76个赞，值得一读。那么，如何让AI真正具备这种主动性呢？接下来两篇论文给出了不同的路径。 Heterogeneous Scientific Foundation Model Collaboration提出的Eywa框架，试图解决一个根本问题：现有的Agent系统过度依赖语言作为通用接口，但在科学领域，很多专业任务根本不是语言能表达的。化学分子结构、蛋白质构象、物理场分布，这些数据用语言描述既不高效也不准确。Eywa的方案很直接：给专门的科学基础模型配上语言模型的推理能力，让LLM来“指挥”这些非语言模型工作。这让我想到我们AI4S社区常说的一句话：语言模型是元帅，各个领域的专业模型是将军。Eywa做的事情，就是建立元帅和将军之间的通信协议。这篇获得了187个赞，是今天最热门的论文。 GLM-5V-Turbo则代表了另一种思路。他们认为multimodal perception不应该只是语言模型的“外接配件”，而应该是推理本身的一部分。这就好比一个真正的科研助手，不仅要能读论文，还要能看图表、操作仪器、观察实验现象。GLM-5V-Turbo在模型设计、多模态训练、强化学习、工具链扩展和Agent框架集成等方面都做了系统性工作。这两个工作的方向其实是一致的：让AI从“能说会道”走向“能看会做”。 SLAM领域也在发生类似的变化。RADIO-ViPE这篇论文展示了一个在线语义SLAM系统，能够在动态环境中实现开放词汇的三维语义定位。与传统方法依赖校准的RGB-D输入不同，RADIO-ViPE直接处理原始单目RGB视频流，不需要先验的相机内参、深度传感器或姿态初始化。系统紧密耦合多模态嵌入与几何场景信息，从而提升地图一致性。本质上，这是一个视觉语言Agent在三维空间中的具体实现。最后一篇TIDE转向了效率问题。Diffusion LLM虽然有并行解码和双向上下文的优势，但要达到竞争力的性能通常需要数十亿参数。TIDE提出了跨架构蒸馏的框架，解决了教师模型和学生模型在架构、注意力机制和分词器都不相同时的知识迁移问题。这为在边缘设备上部署Diffusion LLM提供了可能，也为我们科学计算模型的轻量化打开了想象空间。今天的五篇论文，表面上涉及视觉生成、多模态Agent、SLAM和模型蒸馏，但它们共同指向一个趋势：Agentic AI正在从通用走向专业、从纯语言走向多模态、从追求规模走向优化效率。对我们AI4S研究者而言，这既是机遇也是挑战——我们的领域知识、数据和任务定义，可能将成为构建下一代科学Agent最宝贵的资产。

Paper Morning 2026-05-02

本期涉及论文