Paper Morning 2026-05-02

2026-05-02

各位早上好,周六的早晨,Paper Morning又和大家见面了。 今天想和大家聊一个正在发生的趋势,我觉得它可能会深刻影响我们AI for Science社区接下来的研究方向。 先从一篇视野宏观的文章说起。Visual Generation in the New Era这篇论文提出了一个五级分类框架,把视觉生成从最早的原子级生成,到条件生成,再到上下文生成、Agentic生成,最后到World-Modeling生成。作者们认为,视觉生成领域正在从“看起来像”的像素合成阶段,走向“理解结构、动态和因果关系”的智能生成阶段。这个判断其实呼应了我们AI4S领域一个核心关切:无论是视觉模型还是物理模型,最终都需要从被动渲染走向主动推理。这篇是HuggingFace上的热门paper,76个赞,值得一读。 那么,如何让AI真正具备这种主动性呢?接下来两篇论文给出了不同的路径。 Heterogeneous Scientific Foundation Model Collaboration提出的Eywa框架,试图解决一个根本问题:现有的Agent系统过度依赖语言作为通用接口,但在科学领域,很多专业任务根本不是语言能表达的。化学分子结构、蛋白质构象、物理场分布,这些数据用语言描述既不高效也不准确。Eywa的方案很直接:给专门的科学基础模型配上语言模型的推理能力,让LLM来“指挥”这些非语言模型工作。这让我想到我们AI4S社区常说的一句话:语言模型是元帅,各个领域的专业模型是将军。Eywa做的事情,就是建立元帅和将军之间的通信协议。这篇获得了187个赞,是今天最热门的论文。 GLM-5V-Turbo则代表了另一种思路。他们认为multimodal perception不应该只是语言模型的“外接配件”,而应该是推理本身的一部分。这就好比一个真正的科研助手,不仅要能读论文,还要能看图表、操作仪器、观察实验现象。GLM-5V-Turbo在模型设计、多模态训练、强化学习、工具链扩展和Agent框架集成等方面都做了系统性工作。这两个工作的方向其实是一致的:让AI从“能说会道”走向“能看会做”。 SLAM领域也在发生类似的变化。RADIO-ViPE这篇论文展示了一个在线语义SLAM系统,能够在动态环境中实现开放词汇的三维语义定位。与传统方法依赖校准的RGB-D输入不同,RADIO-ViPE直接处理原始单目RGB视频流,不需要先验的相机内参、深度传感器或姿态初始化。系统紧密耦合多模态嵌入与几何场景信息,从而提升地图一致性。本质上,这是一个视觉语言Agent在三维空间中的具体实现。 最后一篇TIDE转向了效率问题。Diffusion LLM虽然有并行解码和双向上下文的优势,但要达到竞争力的性能通常需要数十亿参数。TIDE提出了跨架构蒸馏的框架,解决了教师模型和学生模型在架构、注意力机制和分词器都不相同时的知识迁移问题。这为在边缘设备上部署Diffusion LLM提供了可能,也为我们科学计算模型的轻量化打开了想象空间。 今天的五篇论文,表面上涉及视觉生成、多模态Agent、SLAM和模型蒸馏,但它们共同指向一个趋势:Agentic AI正在从通用走向专业、从纯语言走向多模态、从追求规模走向优化效率。对我们AI4S研究者而言,这既是机遇也是挑战——我们的领域知识、数据和任务定义,可能将成为构建下一代科学Agent最宝贵的资产。

本期涉及论文