Paper Morning 2026-04-15

各位早上好，今天周三，Paper Morning开播了。最近大家可能注意到了，HuggingFace trending上关于大模型推理和agent的论文特别多，我挑了五篇有代表性的来聊聊。这批工作有个共同特点：它们都在回答同一个深层问题——怎么让大模型真正“会用”而不是“会背”。先看第一篇，ClawGUI。这是一个做GUI agent的统一框架，包含训练、评估和部署三个环节。我注意到它的核心贡献不是模型结构上的创新，而是工程基础设施的完善——作者指出了这个领域长期被忽视的问题：在线强化训练时环境不稳定，评估标准在各工作中漂移，训练好的agent很难真正部署到真实设备上。这让我想到AI4S领域其实也面临类似的“基础设施gap”：我们有很多不错的neural operator模型，但把它们真正用到实际科学问题上时，数据管道、评估基准、部署工具都还很原始。这篇工作值得AI4S的研究者关注，因为它展示了一个领域的成熟是怎么从“能跑demo”走到“全栈可用”的。第二篇 KnowRL 很有意思，它研究的是怎么在强化学习训练中给模型提供有效的hint。作者提出了一个“最小充分指导”的思路，把hint分解成原子知识点，然后用约束子集搜索找到最小有效的组合。这里有个很深刻的观察：给太多hint反而会引入冗余和不一致，增加训练开销。这让我联想到物理信息神经网络（PINN）里的权重平衡问题——当我们同时约束多个物理方程时，怎么知道哪些约束是“最小充分”的？这个思路也许能给AI4S中multi-physics建模提供一些启发。第三篇关于on-policy distillation的论文很值得细读。作者系统研究了大模型蒸馏的成功条件，发现两条关键规律：学生和老师需要“思维模式兼容”，而且老师必须提供学生没见过的真正新能力。这听起来很直觉，但作者做了很扎实的实验验证，包括用弱到强的反向蒸馏——让1.5B的模型去教7B模型，发现两者在学生眼中“分布上不可区分”。这个发现对AI4S的启示是：我们现在流行用大模型蒸馏出小的领域专用模型，但如果两者“思维模式”不兼容，硬塞知识可能事倍功半。operator learning里的那些预训练大模型，是不是真的能教会小模型“物理直觉”，这个得打个问号。第四篇 MEDS 处理的是一个很实际的问题：RL训练久了，模型容易陷入“重复犯同样的错”的陷阱。作者提出用历史轨迹的表示做密度聚类，然后对频繁出现的错误模式施加额外惩罚。这本质上是一种“记忆增强”的reward shaping。想想它和科学计算里那些需要长期记忆的任务有什么关联？比如气候建模里模型需要记住跨越数十年的时空关联，或者分子动力学里需要捕捉慢速的构象变化——也许类似的“错误模式记忆”机制能帮上忙。最后一篇 Audio-Omni 尝试统一音频的理解、生成和编辑三个任务，用一个冻结的多模态LLM做高层推理，加上一个可训练的Diffusion Transformer做高质量生成。这两年多模态大模型进展很快，但Audio领域一直比较分散，这篇算是往统一方向迈了一步。对AI4S来说，音频信号处理在很多科学场景里都有用——比如地震波分析、语音辅助的实验数据分析——如果音频理解能更自然地融入AI4S的工作流，也许会带来一些新的可能性。好了，这五篇聊完了，我有一个整体观察：它们都在回答“怎么让大模型不仅知识多，而且会用”这个根本问题，无论是从训练范式、基础设施还是记忆机制的角度。这其实和AI4S的核心挑战很像——我们不缺 PDE 的解法，缺的是让这些解法真正“会用”到实际问题中去的那种“会”的能力。今天的papers在方法论层面其实给出了不少线索。各位今天加油。

Paper Morning 2026-04-15

本期涉及论文