Paper Morning 2026-06-24

各位早上好，Paper Morning又和大家见面了。今天想先从一篇神经算子的论文聊起，因为这和我们做PDE求解器的同事最近在讨论的问题很相关。Hartley Neural Operator（HNO）这篇文章提出了一个非常简洁但我觉得很有趣的改进：他们用实数的Hartley变换替代了Fourier Neural Operator里的复数FFT。我们知道PDE的解通常是实值的，而复数FFT因为共轭对称性会浪费一半的频率信息。HNO保留了完整的实数频谱，等参数量下实际学到的频率模式翻倍了。作者的central thesis是光谱基的选择会影响算子学习Green函数的能力，这让我想到我们在处理椭圆型PDE时，对Green函数的显式或隐式建模确实是个微妙的东西。这篇工作增量但务实，如果你在用FNO，可以顺手换成HNO试试。说完算子，我们来看看基础模型层面最近在发生什么。BioMatrix这个工作很有意思，它是第一个把分子和蛋白质的序列、结构、自然语言整合到单一decoder架构里的多模态基础模型。过去我们看到要么是多模态但只覆盖单一实体类型，比如只做分子或只做蛋白质，要么是覆盖多种实体但依赖adapter而非原生多模态。BioMatrix用统一的目标函数和共享的tokenizer实现了真正的原生多模态，这让我想到去年我们讨论过的foundation modelScaling Law在科学领域能不能复现的问题。生物数据的多模态整合其实比NLP的Scaling更复杂，因为不同模态的信息密度和噪声结构差异巨大。这篇工作算是给"生物基础模型应该长什么样"提供了一个有说服力的答案。接下来这篇NatureBench很有意思，但读完之后我有点五味杂陈。他们构建了一个包含90个任务的benchmark，用来检验AI coding agents能否真正超越"复现"而走向"发现"。在禁用网络搜索的严格协议下，最强的模型也只在17.8%的任务上超过了SOTA。这说明什么？说明即便在已经发表的论文上复现实验，AI agent的能力也还很有限。更值得玩味的是分析发现，agent的成功主要靠"方法翻译"——把论文里的方法适配到新的代码环境——而不是原创性的科学洞察。这和我们期待AI能帮我们做科学发现还有相当距离。但另一个角度想，这也给AI4S社区提了个醒：我们 Benchmarks的设计本身是不是太侧重于"执行已知方法"而不是"探索未知问题"？然后是Qwen-AgentWorld，这个工作构建了基于语言模型的世界模型，用于通用agent的环境模拟。他们用了超过1000万条真实环境的交互轨迹，涵盖7个领域，通过三阶段训练pipeline得到了35B参数但只激活3B的Qwen-AgentWorld-35B-A3B。这和三阶段训练让我想到去年开始流行的pretrain+fine-tuning+RLHF范式正在向agent场景迁移。这里有个有趣的跨领域联系：世界模型在强化学习里本来就是核心概念，而现在NLP背景的研究者用LLM重新定义了它。反过来想，我们做科学模拟的是不是也可以借鉴这种思路——不是直接预测物理系统的下一帧，而是建模一个"物理世界的语言"？最后Grouped Query Experts是篇工程性更强的文章，针对长上下文下attention计算成本过高的问题。他们在GQA的基础上又加了一层mixture-of-experts，router在每个query group里选择k个expert，而KV保持dense。这本质上是把"不同token应该用不同计算量"这个直觉产品化。GQA已经开源了，推理时确实能显著降低KV cache和计算量。如果你关心如何在有限显存下跑更长序列的PDE求解，这篇值得一读。好了，今天的论文跨度挺大的，从神经算子的理论改进到生物多模态基础模型，从AI agent的科学能力评估到世界模型的构建，再到Transformer的效率优化。如果要我提炼一个观察的话，我觉得今天的论文共同指向了一个趋势：AI for Science正在从"把现有AI方法套用到科学问题"，慢慢走向"为科学问题定制AI架构和训练范式"。HNO是为PDE频谱特性设计的，BioMatrix是为生物多模态设计的，GQE是为长序列科学计算设计的。这种针对性会是我们接下来几年最值得期待的方向。咱们明天见。

Paper Morning 2026-06-24

本期涉及论文