Paper Morning 2026-06-17

2026-06-17

各位早上好,又到了Paper Morning的时间。 今天想和大家聊一聊一个我最近反复思考的问题:当我们谈论AI for Science的时候,我们到底在期待什么?是说要训练一个能解所有PDE的超级模型,还是说用深度学习的思路去重构科学计算的工具链?这个问题的答案,可能就藏在今天要聊的几篇论文里。 先来看一篇来自arXiv最新、让我觉得眼前一亮的论文。标题是“用凸拟线性化方法求解非线性PDEs”,作者是来自尼日利亚的Awojinrin等人。这篇工作的核心贡献很直接:他们把物理信息神经网络训练中那个让人头疼的非凸优化问题,给转换成了一系列凸的线性最小二乘问题。熟悉PINNs的朋友应该知道,传统PINNs的训练本质上是在解一个高度非凸的梯度下降问题,局部极小、梯度消失这些麻烦一个都跑不掉。而这篇文章的思路很巧妙:用Bellman-Kalaba拟线性化把非线性PDE逐次线性化,每一步都变成一个线性的最小二乘问题,然后用一次QR分解就求出闭式解。训练样本也不再是通常的那些神经网络,而是换成了随机特征极限学习机、光谱多项式基和三角展开这些“线性可学习的”函数空间。我个人认为,这是一个值得重视的方法论创新。它不是在网络架构上缝缝补补,而是从优化问题的结构本身开刀。如果能推广到更复杂的边界条件和多物理场耦合问题,这可能会为PINNs打开一个新的技术方向。 不过我们也要清醒地看到,这篇论文目前还停留在方法论的层面,离成为一个真正的PDE求解器还有距离。真正考验功夫的,是它能不能在三维问题、非矩形区域、那些工业界真正头疼的场景里站住脚。这是后话,我们先保持关注。 聊完PDE求解,我们把目光转向一个更宏大的叙事:世界模型。这次的DreamX-World 1.0是来自一个叫DreamX团队的工作,做的,是一个通用可控制的交互式文字/图像到视频的世界模型。听起来有点耳熟对吧?是的,这两年世界模型的热度很高,但大多数工作还停留在“生成一段视频”的层面。这篇工作的不同之处在于,它强调“交互性”和“可控性”:支持相机导航、支持回到之前观察过的区域、支持通过提示词触发特定事件,而且横跨了写实风格、游戏风格和艺术风格三种领域。技术层面有几个值得注意的点:一是他们的数据引擎结合了Unreal Engine的高精度渲染、动作丰富的游戏录像和带几何恢复的真实世界视频,这其实反映了当前世界模型研究的一个大趋势:没有高质量、多种类、大规模的物理交互数据,什么架构创新都是空中楼阁。二是他们提出的E-PRoPE,这是一种轻量级的投影位置编码,能够在保留投影相机几何的同时,对空间减少后的token应用相机感知的注意力。三是他们用因果强迫、DMD风格的知识蒸馏和长视野rollout训练,把一个双向视频生成模型转换成了一种几步自回归的世界模型。这篇文章让我想到的是,它其实在回答一个很根本的问题:我们要世界模型,到底是用来做什么?如果只是生成酷炫的video,那和Sora没本质区别;但如果目标是成为机器人或者自动驾驶的“世界模拟器”,那“可控性”和“交互性”就是硬指标。这条路不好走,但 DreamX 至少给出了一个有参考价值的prototype。 接下来要说的这篇,可能和我们在座的大部分人日常研究的距离稍微远一点,但它背后的思想我觉得特别有意思。LoopCoder-v2研究的是transformer推理当中的一个核心问题:如何通过“循环”来扩展推理时的计算量。这两年大家都在谈test-time compute、o1式的推理范式,但大部分工作关注的是增加token数量或者让模型“想得更久”。LoopCoder-v2走的是另一条路:他们不是增加序列长度,而是在隐空间里让同一个transformer块循环使用。技术细节上,他们提出了并行循环transformer,用跨循环位置偏移和共享KV门的滑动窗口注意力来缓解循环带来的延迟和内存开销问题。然后他们从gain-cost的视角来审视循环次数的选择:多一轮循环可能带来表征的精炼,但跨循环边界也引入了位置不匹配。他们基于这个框架训练了7B参数的LoopCoder-v2家族,在18T tokens上从零预训练,然后做了指令微调和评估。两循环的版本在多数任务上比非循环的基线有收益。这个工作让我想到的是,它和科学计算里的一个经典思想其实高度相通:迭代求解。线性方程组求解里的共轭梯度法、非线性求解里的牛顿迭代,都是通过反复应用同一个操作来逐步逼近解。LoopCoder-v2本质上是在做类似的事情,只是把它搬到了transformer的隐空间表征上。这种跨领域的呼应,往往隐藏着更深刻的规律,我很期待看到这类思路能不能反过来启发科学计算里的算法设计。 最后简单提一下Ling and Ring 2.6。这是两个 trillion 参数级别的模型,Ring-2.6 面向深度推理, Ling-2.6 面向快速响应。它们不是从零训练的,而是通过对已有的 Ling-2.0 进行架构迁移预训练和大规模后训练升级而来。这篇技术报告的价值可能不在于某一项具体的技术突破,而在于它展示了一条如何把大语言模型推向 agentic 能力的工程路径:统一 co-design 模型架构、优化目标、服务系统和 agent 训练环境。这个思路其实和我们今天讨论的很多AI4S工作是一致的:不再期待一个凭空出现的“通用求解器”,而是在一个co-design的框架下,让模型、训练、部署、任务形成闭环。 好了,让我们回到开头的问题。今天聊的这几篇论文,恰好折射出AI for Science研究的几条不同路径:有的人在优化求解器的内部构造(那篇PINNs),有的人在搭建通向物理世界的模拟器(DreamX),有的人在探索推理时计算的新范式(LoopCoder),还有的人在为大模型走向 agent 能力修桥铺路(Ling and Ring)。这些路径看似分散,但我它们都在回应同一个底层需求:怎么让AI不仅仅是“拟合数据”,而是真正“理解”和“推理”物理世界?这个问题没有标准答案,但今天的论文至少告诉我们,每个方向上都有人在扎实推进。这正是科研最让人着迷的地方。 好,今天的播报就到这里,我们明天早上继续聊。

本期涉及论文