Paper Morning 2026-07-04
2026-07-04
各位早上好,今天是周末,Paper Morning照常开播。
我们先来看第一篇,Program-as-Weights,标题本身就很耐人寻味——用权重来编程。这篇文章提出了一个叫做fuzzy-function programming的新范式,专门处理那些难以用规则实现的任务,比如从日志里挑出重要信息、修复格式错误的JSON,或者按照用户意图排序搜索结果。这些任务以前只能调用大模型API,但API调用有三个痛点:缺乏本地性、不可复现、成本不稳定。PAW的思路是把自然语言描述的函数“编译”成一个紧凑的神经工件,也就是针对一个轻量级解释器的参数高效适配器。他们训练了一个4B规模的编译器,在10M规模的FuzzyBench数据集上学习,然后让一个0.6B的Qwen3解释器来执行这些程序。效果很有意思:一个0.6B的模型执行PAW程序能达到32B模型直接提示的效果,但推理成本只有五十分之一。这让我想到一个问题,我们做科学计算的时候也有很多“模糊”的函数——比如怎么判断一个分子构象是不是合理、怎么评估一条轨迹是不是收敛以前我们倾向于写复杂的规则或者调用大API,但PAW提醒我们,或许可以用小模型加适配器的思路在本地解决这个问题。
接下来第二篇关于AgenticSTS,这个工作很有意思,它把LLM智能体放在一个叫Slay the Spire 2的游戏里测试。这是一个需要几百次决策的卡牌构建游戏,天然适合测试长程推理。传统做法是把所有历史观察、工具调用和反思都塞进上下文,这会导致先验知识被“炖成一锅粥”,很难单独分析某个记忆组件的贡献。他们提出了一个“bounded contract”的思路:每次决策都从一个通过类型化检索重新组装的用户消息出发,不附加跨决策的原始记录。这样一来,prompt长度在任意长度的运行中都是有界的,任何单层都可以被单独消融。这个设计对我很有启发,我们做科学智能体的时候,经常需要让模型记住之前的实验观察、代码修改历史、文献阅读笔记,这些信息怎么结构化地存储和检索,而不是简单地塞进上下文,可能直接影响模型能否做几百步的科学研究。
然后是EvoPolicyGym,这个工作提出了一个很清晰的评测设定:自主策略演化。他们让一个“ harness-model”智能体在固定交互预算下反复修改一个可执行策略系统,然后在16个紧凑的交互式RL环境上评估策略的迭代改进能力。这个设定的好处是把“演化过程”本身变成了可评测的指标,而不是只看最终得分。GPT-5.5在综合排名上取得了最好的成绩,而且在所有16个环境里都进入了前两名。这个方向让我想到一个更大的图景:RL的核心思想就是通过反馈迭代改进策略,而科学发现本质上也是一个迭代过程——提出假设、做实验、分析结果、修正假设。EvoPolicyGym或许能为我们提供一个评测框架,看看未来能否训练出真正能自主做科学研究的智能体。
第四篇PerceptionRubrics关注的是多模态评测的一个根本问题: benchmark分数已经饱和了,但实际使用中模型还是经常犯很蠢的错误。他们构建了一个基于评分标准的评测框架,把评估从整体语义匹配转向严格的原子审计。核心设计是两个类型的rubric:Must-Right对应必须正确的essential facts,Easy-Wrong对应容易出错的细粒度细节。更关键的是Gated Scoring机制:对于Must-Right项目,失败会触发严厉的二元惩罚,而不是线性的分数平均。实验揭示了一个“可靠性差距”:模型在标准测试上表现很好,但在必须正确的原则上经常翻车。这个发现对AI4S也很有意义,我们训练PDE求解器或者分子生成模型的时候,往往关注平均误差,但实际应用中有些错误是绝对不能接受的,比如结构生成中违反基本的物理约束,PerceptionRubrics的思路提醒我们设计评测时要把“红线”挑出来单独考核。
最后一篇FlashMorph研究的是hybrid attention模型怎么做层分配。现在长上下文模型为了效率,往往只保留一部分层做全注意力,其余层换成线性注意力。但哪些层该保留全注意力、哪些层换成线性的,之前的方法要么靠经验要么靠简单的层-wise评分,忽略了层与层之间的全局依赖。FlashMorph把这个选择问题建模成一个带预算约束的子集优化问题,提出了一种高效且可扩展的层选择方法。这对科学计算很有实际意义,我们有些PDE求解任务需要很长的上下文窗口——比如预测几个月的气候变化,或者模拟长时间尺度的分子动力学——但全注意力的计算复杂度是平方的,FlashMorph这样的方法让我们能更聪明地分配计算资源。
今天的五篇文章有一个共同的底层主题:都是在回答“怎样让AI系统更可靠、更高效、更可解释”这个大问题,从编程范式到记忆机制,从评测标准到计算分配,每一篇都在某个具体环节上推进一刀。虽然它们不是直接针对PDE求解或者神经算子,但这些基础设施层面的进展最终会滋养整个AI for Science的生态。好了,今天的播报就到这里,祝大家周末愉快。