Paper Morning 2026-03-07
2026-03-07
各位早上好,Paper Morning又和各位见面了。
今天想先从一篇挺有意思的视频生成工作聊起。Helios这个名字取得很浪漫,它是希腊神话里的太阳神。这篇论文确实带来了一些让人眼前一亮的东西:这是一个140亿参数的视频生成模型,能够在单张H100 GPU上跑到19.5FPS,同时支持分钟级的长视频生成。注意啊,这里有个细节很关键——他们做到了real-time generation,但没有用KV-cache、稀疏注意力或者模型量化这些常规的加速手段。这意味着他们从模型架构和训练本身就解决了效率问题,而不是靠 tricks 往上堆。对于我们做科学计算的人来说,这其实提供了一个很值得思考的参照:当你想要把一个很重的模型真真正正落地的时候,架构层面的创新往往比后面的优化技巧更有决定性。
然后我想把话题引到SkillNet这个工作上。现在AI agent火得不行,大家都在讨论agent怎么调用工具、怎么完成复杂任务。但有一个根本性的问题很少被正面回应:agent学到的技能怎么积累、怎么复用?这篇论文提出的SkillNet很有意思,它试图给AI技能建立一个“基础设施”,不只是让agent能调用某个具体的工具,而是把技能抽象成一种可评估、可连接、可组合的对象。想想看,这和我们做科学计算时追求的可复现、可组合是不是有某种相通的地方?当我们的PDE求解器、我们的neural operator也能够像这样被结构化管理的时候,也许AI4S的工作流会被重新定义。
接下来这篇MOOSE-Star,我建议各位多花点注意力。它试图回答一个问题:能不能直接训练一个模型来建模科学发现的生成过程,也就是P(hypothesis|background)?这个问题很根本,但之前大家一直绕着走,因为直接训练在数学上是 intractable 的——组合复杂度是O(N^k)。MOOSE-Star的思路是把这个问题分解,用分层的方式来处理。他们的结果很有意思,在某些条件下把复杂度从指数降到了对数。这让我想到,其实在我们做neural operator的时候,也经常面对类似的问题:直接学习从输入函数到输出函数的映射有时候太难了,但如果你知道这个映射背后的物理结构,分解后就变得可学了。这种“知道结构才能真正scale”的洞察,可能是AI for Science下一步很重要的方向。
然后我们来看T2S-Bench和Structure-of-Thought。这是一个关于大语言模型文本到结构推理能力的benchmark。作者们提出了一个很直观的insight:人处理复杂阅读任务的时候,会习惯性地标记关键点、建立关系、结构化信息,那模型是不是也可以这样?Structure-of-Thought这个prompting技术就是让模型显式地构建中间文本结构。他们在六个科学领域、三十二种结构类型上做了实验。对于我们做AI4S的人来说,这里有个值得注意的点:科学文本的处理本身就是个大市场,而科学推理往往需要把散乱的信息组织成有结构的知识。如果这种方法能够在科学文献理解上发挥威力,那它对我们追踪前沿、构建知识图谱都会有直接帮助。
最后想聊的是HACRL这篇关于异构智能体协作强化学习的工作。它提出了一个很有洞察力的观察:现在的多智能体RL,要么是需要部署时就协调,要么是单向的知识蒸馏。但真实的科研场景中,不同的agent、有不同的能力边界,它们需要的是一种更灵活的协作方式——训练时共享已验证的rollout,但推理时各自独立运行。这个想法让我想到,其实在科学计算里,我们经常要把不同领域的模型组合起来用: CFD的求解器、优化的求解器、数据的处理流程,它们之间是不是也需要一种类似“验证后共享”的协作机制?这篇论文提出的HACPO算法,在样本利用率和跨智能体学习上给出了一个新的解法。
好了,今天的五篇论文聊完了。我有一个整体的感受:这一波的AI研究正在从“单一模型的能力极限”转向“系统层面的协作与复用”。不管是从Helios的架构效率、SkillNet的技能基础设施、MOOSE-Star的推理复杂度分解、T2S-Bench的结构化推理,还是HACRL的异构协作,其实都在回答同一个问题:怎么让大规模的AI系统真正可组合、可扩展、可累积?这和我们AI4S社区关心的foundation model、operator learning、benchmark建设,底层逻辑是一致的。也许明天的AI4S突破,不一定来自于某个具体的PDE求解器,而来自于我们怎么把这些求解器更好地组织成一套可持续演进的系统。这值得我们继续观察。
今天的播报就到这里,我们明天见。