Paper Morning 2026-04-29

各位早上好，Paper Morning又和大家见面了。今天想先从一个我们领域外的话题聊起——不知道你有没有这种感觉，现在做AI研究，尤其是基础模型，数据工程越来越像是一门“手艺活”，调参、加数据、堆卡，但缺乏系统性的方法论。论文1就试图回答这个问题：能不能把数据工程变成一个可诊断、可迭代的工程流程？这篇叫做《Programming with Data》的 work 来自 Chenkai Pan 他们，核心思想其实很直接但很有启发性：与其盲目给模型喂数据，不如从原始语料中提取结构化知识表示，用它同时指导训练数据的构建和评估。这样一来，模型在某个领域失败了，你就能精确诊断出是训练数据里缺了什么，而不是无差别地加数据。这实际上是把软件开发的“测试驱动开发”理念迁移到了数据工程里。训练数据变成了“源代码”，评估标准成了“测试用例”，整个过程变得可追溯、可优化。这个思路对于我们做AI4S的人来说其实很值得借鉴——当我们训练一个PDE求解器或科学基础模型时，我们真的知道训练数据里缺了什么吗？还是只是盲目扩充数据规模？说完数据工程，我们来看一个更面向系统架构的工作。论文2把最近火热的递归推理从单模型扩展到了多智能体系统，提出RecursiveMAS。我们知道，递归语言模型通过在隐状态上迭代 refinement 来深化推理，这已经成了一个新的 scaling 轴。Xiyuan Yang 他们问了一个很自然的问题：这种递归思想能不能用到多智能体的协作里？他们的答案是把整个多智能体系统看成一个统一的递归计算过程，用一个轻量级的 RecursiveLink 模块把异质智能体连接成协作环。这里面的关键创新是跨智能体的隐状态传递和 in-distribution 的隐式思考生成。听起来有点抽象，但你可以把它想象成一群不同专长的研究者，不只是分工合作，而是在讨论过程中实时交换“思维草稿”，每个人的思考都能被其他人引用和深化。这种协同模式对于需要多学科交叉的科学问题，可能会有意想不到的启发。如果说论文2关注的是协作的“深度”，那论文3关心的则是协作的“广度”。From Skills to Talent 这篇来自 Zhengxu Yu 他们的工作，批评现在多智能体系统还是停留在固定团队结构、会话绑定的学习这种初级阶段。他们提出的 OneManCompany 框架很有意思：把技能和工具封装成可移植的“人才”单元，通过类型化的组织接口来编排异质的后端。这样一来，一个智能体团队不再是一成不变的，而是可以像真实公司一样动态调整人员配置，持续学习和优化。这个概念其实呼应了我之前提到的一个趋势：AI 系统正在从“工具”变成“组织”。当我们在科学计算里部署多个专业模型时，这种组织化的思路也许能帮我们更好地管理复杂的工作流。好了，稍微喘口气，我们来看两篇评估和安全相关的论文。论文4 ReVSI 关注的是视觉语言模型在三维空间推理上的评估问题。Yiming Zhang 他们指出，现有很多 benchmark 有个致命缺陷：它们的问题答案是从点云注释推导出来的，但 VLM 实际上看的是视频帧。这就导致了很多“伪问题”——答案是基于点云重建的，但视频里根本看不到对应物体，或者几何信息在转录过程中丢失了。更有意思的是，很多 benchmark 假设模型能访问完整场景，但实际上很多 VLM 只采样了稀疏的帧，很多问题在模型实际输入下根本无法回答。这个批评其实很深刻，它提醒我们：评估方法本身如果不严谨，可能会严重高估或低估模型能力。对于我们做科学计算的人来说更是如此——一个 PDE 求解器在测试集上表现好，但测试集是不是真的覆盖了有意义的物理场景？这篇论文给所有做 AI for Science 的人提了个醒。最后一篇论文5是一篇关于 VLA 模型安全的综述。VLA 也就是视觉语言动作模型，正在成为具身智能的统一载体。这篇survey把分散在机器人学习、对抗机器学习、AI 对齐和自主系统安全各领域的安全问题整合起来，指出 VLA 模型面临五大新挑战：物理后果的不可逆性、多模态攻击面、实时防御的延迟约束、长程轨迹的错误传播，以及数据供应链的脆弱性。读这篇论文的时候我在想，随着 AI 越来越多地介入科学实验和物理模拟，这些安全问题会不会也成为我们领域的隐患？当一个 AI 控制的实验系统出错时，代价可能不仅是模型性能下降，而是真实的实验失败甚至设备损坏。好了，今天的播报接近尾声。回顾这五篇论文，我有一个强烈的感受：AI 研究正在经历一个从“模型”到“系统”再到“组织”的迁移。我们不再满足于单个模型的性能提升，而是在思考模型如何协作、如何组织、如何在真实环境里安全运行。对于我们做 AI for Science 的人来说，这个趋势意味着两件事：第一，科学计算系统会变得越来越复杂，需要借鉴这些多智能体和组织化的思想；第二，评估和安全这些“基础设施”问题，正在变得和模型性能一样重要。今天的分享就到这里，Paper Morning 明天见。

Paper Morning 2026-04-29

本期涉及论文