Paper Morning 2026-04-29

2026-04-29

各位早上好,Paper Morning又和大家见面了。 今天想先从一个我们领域外的话题聊起——不知道你有没有这种感觉,现在做AI研究,尤其是基础模型,数据工程越来越像是一门“手艺活”,调参、加数据、堆卡,但缺乏系统性的方法论。论文1就试图回答这个问题:能不能把数据工程变成一个可诊断、可迭代的工程流程? 这篇叫做《Programming with Data》的 work 来自 Chenkai Pan 他们,核心思想其实很直接但很有启发性:与其盲目给模型喂数据,不如从原始语料中提取结构化知识表示,用它同时指导训练数据的构建和评估。这样一来,模型在某个领域失败了,你就能精确诊断出是训练数据里缺了什么,而不是无差别地加数据。这实际上是把软件开发的“测试驱动开发”理念迁移到了数据工程里。训练数据变成了“源代码”,评估标准成了“测试用例”,整个过程变得可追溯、可优化。这个思路对于我们做AI4S的人来说其实很值得借鉴——当我们训练一个PDE求解器或科学基础模型时,我们真的知道训练数据里缺了什么吗?还是只是盲目扩充数据规模? 说完数据工程,我们来看一个更面向系统架构的工作。论文2把最近火热的递归推理从单模型扩展到了多智能体系统,提出RecursiveMAS。我们知道,递归语言模型通过在隐状态上迭代 refinement 来深化推理,这已经成了一个新的 scaling 轴。Xiyuan Yang 他们问了一个很自然的问题:这种递归思想能不能用到多智能体的协作里?他们的答案是把整个多智能体系统看成一个统一的递归计算过程,用一个轻量级的 RecursiveLink 模块把异质智能体连接成协作环。这里面的关键创新是跨智能体的隐状态传递和 in-distribution 的隐式思考生成。听起来有点抽象,但你可以把它想象成一群不同专长的研究者,不只是分工合作,而是在讨论过程中实时交换“思维草稿”,每个人的思考都能被其他人引用和深化。这种协同模式对于需要多学科交叉的科学问题,可能会有意想不到的启发。 如果说论文2关注的是协作的“深度”,那论文3关心的则是协作的“广度”。From Skills to Talent 这篇来自 Zhengxu Yu 他们的工作,批评现在多智能体系统还是停留在固定团队结构、会话绑定的学习这种初级阶段。他们提出的 OneManCompany 框架很有意思:把技能和工具封装成可移植的“人才”单元,通过类型化的组织接口来编排异质的后端。这样一来,一个智能体团队不再是一成不变的,而是可以像真实公司一样动态调整人员配置,持续学习和优化。这个概念其实呼应了我之前提到的一个趋势:AI 系统正在从“工具”变成“组织”。当我们在科学计算里部署多个专业模型时,这种组织化的思路也许能帮我们更好地管理复杂的工作流。 好了,稍微喘口气,我们来看两篇评估和安全相关的论文。论文4 ReVSI 关注的是视觉语言模型在三维空间推理上的评估问题。Yiming Zhang 他们指出,现有很多 benchmark 有个致命缺陷:它们的问题答案是从点云注释推导出来的,但 VLM 实际上看的是视频帧。这就导致了很多“伪问题”——答案是基于点云重建的,但视频里根本看不到对应物体,或者几何信息在转录过程中丢失了。更有意思的是,很多 benchmark 假设模型能访问完整场景,但实际上很多 VLM 只采样了稀疏的帧,很多问题在模型实际输入下根本无法回答。这个批评其实很深刻,它提醒我们:评估方法本身如果不严谨,可能会严重高估或低估模型能力。对于我们做科学计算的人来说更是如此——一个 PDE 求解器在测试集上表现好,但测试集是不是真的覆盖了有意义的物理场景?这篇论文给所有做 AI for Science 的人提了个醒。 最后一篇论文5是一篇关于 VLA 模型安全的综述。VLA 也就是视觉语言动作模型,正在成为具身智能的统一载体。这篇survey把分散在机器人学习、对抗机器学习、AI 对齐和自主系统安全各领域的安全问题整合起来,指出 VLA 模型面临五大新挑战:物理后果的不可逆性、多模态攻击面、实时防御的延迟约束、长程轨迹的错误传播,以及数据供应链的脆弱性。读这篇论文的时候我在想,随着 AI 越来越多地介入科学实验和物理模拟,这些安全问题会不会也成为我们领域的隐患?当一个 AI 控制的实验系统出错时,代价可能不仅是模型性能下降,而是真实的实验失败甚至设备损坏。 好了,今天的播报接近尾声。回顾这五篇论文,我有一个强烈的感受:AI 研究正在经历一个从“模型”到“系统”再到“组织”的迁移。我们不再满足于单个模型的性能提升,而是在思考模型如何协作、如何组织、如何在真实环境里安全运行。对于我们做 AI for Science 的人来说,这个趋势意味着两件事:第一,科学计算系统会变得越来越复杂,需要借鉴这些多智能体和组织化的思想;第二,评估和安全这些“基础设施”问题,正在变得和模型性能一样重要。 今天的分享就到这里,Paper Morning 明天见。

本期涉及论文