Paper Morning 2026-06-17

各位早上好，又到了Paper Morning的时间。今天想和大家聊一聊一个我最近反复思考的问题：当我们谈论AI for Science的时候，我们到底在期待什么？是说要训练一个能解所有PDE的超级模型，还是说用深度学习的思路去重构科学计算的工具链？这个问题的答案，可能就藏在今天要聊的几篇论文里。先来看一篇来自arXiv最新、让我觉得眼前一亮的论文。标题是“用凸拟线性化方法求解非线性PDEs”，作者是来自尼日利亚的Awojinrin等人。这篇工作的核心贡献很直接：他们把物理信息神经网络训练中那个让人头疼的非凸优化问题，给转换成了一系列凸的线性最小二乘问题。熟悉PINNs的朋友应该知道，传统PINNs的训练本质上是在解一个高度非凸的梯度下降问题，局部极小、梯度消失这些麻烦一个都跑不掉。而这篇文章的思路很巧妙：用Bellman-Kalaba拟线性化把非线性PDE逐次线性化，每一步都变成一个线性的最小二乘问题，然后用一次QR分解就求出闭式解。训练样本也不再是通常的那些神经网络，而是换成了随机特征极限学习机、光谱多项式基和三角展开这些“线性可学习的”函数空间。我个人认为，这是一个值得重视的方法论创新。它不是在网络架构上缝缝补补，而是从优化问题的结构本身开刀。如果能推广到更复杂的边界条件和多物理场耦合问题，这可能会为PINNs打开一个新的技术方向。不过我们也要清醒地看到，这篇论文目前还停留在方法论的层面，离成为一个真正的PDE求解器还有距离。真正考验功夫的，是它能不能在三维问题、非矩形区域、那些工业界真正头疼的场景里站住脚。这是后话，我们先保持关注。聊完PDE求解，我们把目光转向一个更宏大的叙事：世界模型。这次的DreamX-World 1.0是来自一个叫DreamX团队的工作，做的，是一个通用可控制的交互式文字/图像到视频的世界模型。听起来有点耳熟对吧？是的，这两年世界模型的热度很高，但大多数工作还停留在“生成一段视频”的层面。这篇工作的不同之处在于，它强调“交互性”和“可控性”：支持相机导航、支持回到之前观察过的区域、支持通过提示词触发特定事件，而且横跨了写实风格、游戏风格和艺术风格三种领域。技术层面有几个值得注意的点：一是他们的数据引擎结合了Unreal Engine的高精度渲染、动作丰富的游戏录像和带几何恢复的真实世界视频，这其实反映了当前世界模型研究的一个大趋势：没有高质量、多种类、大规模的物理交互数据，什么架构创新都是空中楼阁。二是他们提出的E-PRoPE，这是一种轻量级的投影位置编码，能够在保留投影相机几何的同时，对空间减少后的token应用相机感知的注意力。三是他们用因果强迫、DMD风格的知识蒸馏和长视野rollout训练，把一个双向视频生成模型转换成了一种几步自回归的世界模型。这篇文章让我想到的是，它其实在回答一个很根本的问题：我们要世界模型，到底是用来做什么？如果只是生成酷炫的video，那和Sora没本质区别；但如果目标是成为机器人或者自动驾驶的“世界模拟器”，那“可控性”和“交互性”就是硬指标。这条路不好走，但 DreamX 至少给出了一个有参考价值的prototype。接下来要说的这篇，可能和我们在座的大部分人日常研究的距离稍微远一点，但它背后的思想我觉得特别有意思。LoopCoder-v2研究的是transformer推理当中的一个核心问题：如何通过“循环”来扩展推理时的计算量。这两年大家都在谈test-time compute、o1式的推理范式，但大部分工作关注的是增加token数量或者让模型“想得更久”。LoopCoder-v2走的是另一条路：他们不是增加序列长度，而是在隐空间里让同一个transformer块循环使用。技术细节上，他们提出了并行循环transformer，用跨循环位置偏移和共享KV门的滑动窗口注意力来缓解循环带来的延迟和内存开销问题。然后他们从gain-cost的视角来审视循环次数的选择：多一轮循环可能带来表征的精炼，但跨循环边界也引入了位置不匹配。他们基于这个框架训练了7B参数的LoopCoder-v2家族，在18T tokens上从零预训练，然后做了指令微调和评估。两循环的版本在多数任务上比非循环的基线有收益。这个工作让我想到的是，它和科学计算里的一个经典思想其实高度相通：迭代求解。线性方程组求解里的共轭梯度法、非线性求解里的牛顿迭代，都是通过反复应用同一个操作来逐步逼近解。LoopCoder-v2本质上是在做类似的事情，只是把它搬到了transformer的隐空间表征上。这种跨领域的呼应，往往隐藏着更深刻的规律，我很期待看到这类思路能不能反过来启发科学计算里的算法设计。最后简单提一下Ling and Ring 2.6。这是两个 trillion 参数级别的模型，Ring-2.6 面向深度推理， Ling-2.6 面向快速响应。它们不是从零训练的，而是通过对已有的 Ling-2.0 进行架构迁移预训练和大规模后训练升级而来。这篇技术报告的价值可能不在于某一项具体的技术突破，而在于它展示了一条如何把大语言模型推向 agentic 能力的工程路径：统一 co-design 模型架构、优化目标、服务系统和 agent 训练环境。这个思路其实和我们今天讨论的很多AI4S工作是一致的：不再期待一个凭空出现的“通用求解器”，而是在一个co-design的框架下，让模型、训练、部署、任务形成闭环。好了，让我们回到开头的问题。今天聊的这几篇论文，恰好折射出AI for Science研究的几条不同路径：有的人在优化求解器的内部构造（那篇PINNs），有的人在搭建通向物理世界的模拟器（DreamX），有的人在探索推理时计算的新范式（LoopCoder），还有的人在为大模型走向 agent 能力修桥铺路（Ling and Ring）。这些路径看似分散，但我它们都在回应同一个底层需求：怎么让AI不仅仅是“拟合数据”，而是真正“理解”和“推理”物理世界？这个问题没有标准答案，但今天的论文至少告诉我们，每个方向上都有人在扎实推进。这正是科研最让人着迷的地方。好，今天的播报就到这里，我们明天早上继续聊。

Paper Morning 2026-06-17

本期涉及论文