Paper Morning 2026-06-08

2026-06-08

各位早上好,新的一周开始了,Paper Morning如约而至。 今天想先从一个我们AI for Science社群常常忽略的问题聊起:到底怎么才算真正“评估”一个科学领域的基础模型?GENEB这篇论文就直接戳破了这个看似简单但实际非常棘手的问题。作者们发现,基因组学领域已经有几十个基础模型了,但它们的性能排名居然极度不稳定——同一个模型在不同的任务类别上排名可能天差地别。原因是现有的benchmark太碎片化,每个模型在不同的协议下测试,有的用zero-shot,有的用fine-tuning,根本没有统一的可比性。GENEB这个工作于是做了一个统一的诊断框架,用同一个probing协议在100个任务上测评了40个模型。结果很耐人寻味:没有绝对的赢家,模型的能力分布高度依赖于任务类型。这让我想到我们在PDE求解器或者Operator Learning里的评估不也常常面临类似问题吗?大家各跑各的benchmark,claim的提升到底来自模型本身还是数据或者评估协议的差异,往往说不清。这篇工作提醒我们,foundation model的成熟不仅仅是训练更大的模型,更需要建立可信赖的评估基础设施。 聊到评估,这让我想到最近 robotics 领域一篇很有意思的position paper。它提出的问题不是怎么训练更好的VLA模型,而是问了一个更根本的问题:为什么我们总觉得数据不够?作者的洞察很有意思——世界上其实有大量的行为数据:人类运动的视频、互联网上的操作演示、仿真里生成的rollout,这些都是“未标注”的行为知识。但现有的机器人学习范式只能利用那些专门收集的、带有action label的演示数据,其余大量信息都浪费了。这其实和我们科学计算里遇到的困境很像:我们有海量的物理观测数据、方程描述、仿真轨迹,但真正能喂给神经网络的只是很小一部分。这篇paper提出需要建立“行为标注”的基础设施,把非结构化的世界知识转化为机器人可用的监督信号。这让我想到,物理信息神经网络某种意义上就是在做类似的事——用物理方程作为“隐式标签”来利用那些原本没有标注的数据。 说完数据这个话题,我们来看一篇更偏向方法论的论文。它研究的是为什么大语言模型做文本embedding效果总是差强人意。作者发现了一个反直觉的现象:当把文本embedding投射到词汇空间时,它们倾向于和那些高频但信息量很低的词对齐,比如“the”、“is”这类停用词。这些高频词就像一层迷雾,掩盖了embedding真正捕获的语义信息。基于这个发现,他们设计了EmbedFilter,一个简单的线性变换来过滤掉这种高频噪声。应用到MTEB等标准benchmark上,性能提升显著。这个工作的洞见其实超出了NLP本身——它揭示了模型预训练目标和我们期望的下游任务之间可能存在系统性偏差。在科学领域也一样,我们用predict next token训练的foundation model,真的能直接迁移到求解PDE或者预测分子性质的任务上吗?可能也需要类似的“filter”思路。 接下来这个工作就和我们的主战场更接近了。它研究的是光伏发电的冷启动预测问题——新电站上线的时候完全没有历史发电数据,怎么做预测?传统方法只能靠经验或者简化模型。这篇论文的思路非常聪明:没有历史数据,那就用物理模型生成“合成历史”嘛。他们用电站的元数据加上气象协变量,通过物理约束的合成方法生成一段虚拟的发电历史,然后用时间序列foundation model在这段合成数据上做conditioning,实现零样本预测。在440个光伏站点的测试中,这种 covariate-aware 的foundation model 比传统基线提升了近两倍。这个工作最让我欣赏的是它把“物理信息”的思想用在了数据生成侧,而不是仅仅在模型训练侧加物理约束。它回答了一个很实际的问题:当我们没有观测数据时,怎么用已知物理知识来“创造”一个让foundation model能发挥作用的情境。 最后简单提一下SoCRATES这个工作。它是关于LLM调解员的评估benchmark——也就是让LLM在冲突场景中主动介入、调解分歧的能力建设。这个和我们AI4S的直接关联不算强,但它提出的评估思路值得注意:真实世界的调解是一个实时演化的轨迹,涉及到各方的情绪、意图、文化背景不断变化。现有的评估往往把每个对话轮次都打分,不管是否跑题,这就引入了大量噪声。SoCRATES的做法是只在推进主题的轮次上评估,并且覆盖了战略姿态、参与者构成、情感反应等五个适应维度。这其实呼应了我们在科学模拟评估中也会遇到的问题:到底什么才是有意义的性能指标?跑分高不代表真的解决了问题。 好,简单总结一下今天的观察。我发现这几篇论文背后有一个共同的关切:foundation model从预训练到实际部署之间存在的“最后一公里”问题。基因组模型缺的是统一评估,机器人缺的是行为标注,文本embedding缺的是去噪,光伏预测缺的是冷启动数据。看起来这个领域正在从“怎么训练更大的模型”转向“怎么让已有的模型真正用起来”。这也是AI4S正在经历的时刻——我们有了越来越强的operator learning、physics-informed learning技术,但怎么建立可信的评估体系、怎么处理数据稀缺场景、怎么让物理知识和数据驱动方法真正融合,可能比单纯追求模型规模更有待我们去突破。好了各位,周一早上干货不少,Paper Morning明天继续。

本期涉及论文