Paper Morning 2026-04-14

2026-04-14

各位早上好,周二的Paper Morning如约而至。 今天想先从一个我们领域的人都很熟悉的现象说起:当大语言模型在做强化学习微调的时候,常常会陷入一种“行为塌缩”的困境——模型反反复复犯同样的错误,采样多样性急剧下降。这其实不只是LLM的问题,任何做物理模拟强化学习的同学可能都有同感,当你用RL去控制一个机械臂或者优化一个分子构型时,策略一旦发现某个“还不错”的局部解,就会一直待在里面不出来。 今天第一篇论文MEDS就是来解决这个问题的。它的核心思路很直接:与其只让当前策略增加熵,不如把历史轨迹也利用起来。论文提出用密度聚类来识别那些反复出现的错误模式,然后对掉进“常见错误集群”的轨迹施加更大的惩罚。这样一来,模型就被迫去探索那些不常走的路径。对于我们AI4S的人来说,这个方法的价值可能不仅仅在LLM——想象一下,如果你用RL来搜索材料结构或者设计新的分子,传统的entropy regularization只能保证当前策略的随机性,但无法避免策略在若干次尝试后开始重复访问相似的失败区域。MEDS提供了显式干预跨rollout多样性的能力,这可能是未来构建更高效的科学探索策略的一个新工具。 说完RL,我们来聊聊量子计算。可能很多做AI4S的同学最近都在关注量子计算和AI的交叉,特别是LLM能不能帮我们写量子代码。QuanBench+这篇文章就干了一件很基础但非常重要的事情:他们发现现在评估LLM写量子代码的能力时,大多数benchmark都只在一个框架里做,比如只测Qiskit或者只测Cirq。这就导致一个问题——你分不清模型是真的理解了量子算法,还是只是对某个框架的API比较熟悉。QuanBench+构建了一个统一的基准,同时覆盖Qiskit、PennyLane和Cirq三个主流框架设计了42个对齐任务。更重要的是,他们还引入了基于反馈的修复评估——模型第一次写错了没关系,给它一次看错误信息再重来的机会。结果很有意思:即使是最强的模型,一锤定音的pass率也只有百分之五十多,但加上反馈修复之后提升显著。这说明什么?对于我们做量子计算的人来说,这提示了一个很现实的方向——与其追求一次生成正确,不如让LLM学会“调试”量子代码,这个能力可能比单纯的代码生成更接近实用。 接下来这篇 survey 关于Attention Sink,可能看起来离我们有点远,但我觉得对做foundation model的同学来说非常重要。大家知道Transformer的核心是attention机制,但近年的研究逐渐发现一个现象:attention会过度关注某些“中性”token,比如句子开头常见的“.”或者BERT里的[CLS]token,这种现象就叫做Attention Sink。它会干扰模型的可解释性,甚至加剧幻觉问题。这篇survey第一次系统梳理了这个问题的发展脉络,从最初的发现到后来的各种解释,再到各种 mitigation 方法。对于我们做PDE foundation model的人来说,这其实提醒了一个很重要的事情:当我们在构建科学计算领域的foundation model时,同样的机制是不是也存在?特别是当我们的token包含坐标、时间步或者物理量的时候,会不会有某种“隐形的sink”在悄悄主导attention的学习?这篇survey可能值得一读,因为它不仅总结了方法,更重要的是提出了很多尚未解决的问题。 说完了attention机制,我们换个口味,看看视频生成的工作。OmniShow做的是human-object interaction视频生成,看起来是一个应用导向的研究,但它背后涉及一个很核心的技术挑战:如何同时满足多种控制条件的约束。论文提出了一个统一的条件注入机制,能够把文本、参考图像、音频和人体姿态等多种模态的信息和谐地融合在一起。对我们AI4S有什么启发呢?实际上,这类工作本质上是把物理约束和视觉生成结合起来。人的动作和物体的交互本质上遵循牛顿力学,当你在生成这类视频时,你实际上是在隐式地模拟物理规律。虽然OmniShow没有显式地使用物理先验,但它对多模态条件的高效整合思路,或许可以帮助我们思考如何在科学模拟中加入更多的观测约束——比如在预测流体行为时,如何把实验测量、数值模拟和理论模型统一到一个框架里去。 最后想聊聊SATO这篇文章,它做的是3D网格生成,但切入点很有意思。以前的autoregressive transformer生成网格时,要么按坐标排序导致序列太长,要么用patch切分破坏了几何连续性。SATO的核心创新是用triangle strip作为token单元——你可以理解为把网格看成由一条条连续的三角形带子组成的,这样既保持了UV边界和边缘流的结构性,又让序列长度变得合理。这个工作虽然是计算机图形学的,但它提出的“连续性优先”的tokenization策略,跟我们做科学计算时对网格处理的思路是一致的。无论是有限元分析还是分子动力学模拟,网格或粒子的连接关系本身就蕴含着物理意义,如何设计一种既能保留几何拓扑又能被transformer高效处理的表示,可能是未来几何深度学习里的一个重要方向。 好了,今天的播报就到这里。总结一下今天的观察:这几篇论文虽然主题分散,但有一个共同的隐含线索——大家都在关注“结构”的保留和利用。无论是RL里历史轨迹的结构、量子代码里跨框架的结构、attention里token之间依赖的结构、多模态生成里条件之间的结构,还是网格生成里几何连续的结构,本质上都在回答同一个问题:如何在高效计算的同时不忘保持问题的内在结构。这可能也是我们AI4S领域一直在面对的核心挑战——当你用强大的神经网络去逼近复杂系统时,那些被你忽略的结构,往往才是科学的核心。今天的Paper Morning就到这里,我们明天见。

本期涉及论文