Paper Morning 2026-04-08
2026-04-08
各位早上好,Paper Morning又和大家见面了。
今天想先聊一个我最近反复思考的问题:我们做AI研究的人,其实在某种程度上,和那些做视频理解的团队面临着一个相似的困境——怎么知道我们真的在进步,而不是在自欺欺人?这也是今天我想和大家分享的第一篇论文,Video-MME-v2的核心关切所在。
视频理解领域这两年确实很热闹,模型在各种benchmark上刷分刷得很高,但实际用起来又总觉得差点意思。这篇论文的作者指出了一个很尖锐的问题:现有benchmark和真实应用之间存在显著差距,排行榜上的高分和真实能力并不匹配。他们为此构建了一个新的评估框架,设计了三个递进复杂的评估层次,从基本的多点视觉信息聚合,到时序动态建模,再到复杂的多模态推理。更重要的是,他们提出了一种基于分组的非线性评估策略,不再简单地看每个问题的正确率,而是看一组相关问题上的整体表现。这种思路其实挺值得我们做科学计算的人借鉴的——我们在评价一个PDE求解器或者neural operator的时候,是否也应该更多关注它在相关任务族上的综合表现,而不是孤立地看单个方程的误差?
接下来这篇论文把我拉回到一个更当下的热点:LLM agent和检索系统的结合。传统的信息检索系统是为人类用户设计的,学习排序的方法依赖大量人类交互数据,比如点击行为、停留时间等等。但现在不一样了,搜索和推理正在越来越多地被LLM agent所执行,检索变成了多轮推理和行动闭环中的核心组件。这里出现了一个根本性的Mismatch:那些基于人类查询习惯和结果消费方式训练出来的检索模型,在面对agent时可能完全不对味。这篇论文提出了一个很直接的想法:那就用agent的交互数据来训练检索模型呗。他们把这个任务定义为"从agent轨迹中学习检索"。这个方向我觉得非常值得关注,因为它触及到了一个根本性的趋势——当AI开始成为AI的用户时,我们整个系统的设计逻辑都需要重构。这对于我们构建科学发现的AI agent也有重要启示:检索模块该怎样设计,才能更好地服务于科学推理这个目标?
那么,说到agent评估,第三篇论文Claw-Eval就来得非常及时了。作者指出了现有agent benchmark的三个致命问题:只检查最终输出而不看轨迹过程,安全性和鲁棒性评估严重不足,以及模态和交互范式的覆盖太窄。他们构建了一套包含300个经过人工验证的任务,横跨9个类别的评估套件。更有意思的是,他们设计了三条独立的证据通道来记录agent的每一步操作:执行轨迹、审计日志和环境快照。这实际上是在推动一种更透明的评估文化——不只是看结果对不对,还要看过程是怎么走的。这对于我们思考AI4S工具的评估也很启发:当我们把一个neural operator部署到实际场景中时,我们是否也应该记录它完整的推理过程,而不只是最终输出?
第四篇论文Adam's Law提出了一个挺有意思的视角:文本频率定律。他们观察到文本出现频率和人类认知相关,比如阅读速度,但这在LLM中研究得还不够充分。他们框架的核心观点是:对于LLM来说,更频繁的文本数据无论是在prompting还是微调阶段都是更优的选择。由于很多LLM的训练数据并不公开,他们提出用在线资源来估计句子级别的频率,然后通过一个输入改写器把输入转换成更频繁的表达。他们还进一步提出了文本频率蒸馏的概念。这个工作让我想到一个更广泛的问题:数据分布对于模型能力的影响,可能比我们想象的更微妙。在科学计算领域,训练数据的分布、采样策略,又会如何影响neural operator的泛化能力?这是一个很值得深挖的方向。
最后这篇论文关注的是VLA模型——视觉语言动作模型在机器人操作中的鲁棒性问题。他们发现一个挺惊人的现象:即使只是对指令进行同义词替换这种简单的paraphrase,就能让模型性能下降22到52个百分点。这说明现有模型对特定指令表达方式的过拟合已经到了非常严重的地步。他们构建了一个精心设计的benchmark,区分了动作表达变化和对象引用变化的影响,发现主要问题出在对象层面的词汇变异。这个发现对于我们理解foundation model在科学领域的部署也很有警示意义:一个在通用语料上预训练的模型,能不能直接迁移到科学任务的特定表达方式中?可能没那么简单。
好了,今天的播报差不多该收尾了。我整体的一个观察是:这一组论文其实在共同描绘一个AI研究的新阶段——我们不再满足于在固定benchmark上的数字游戏,而是开始更认真地对待真实场景的复杂性、模型推理过程的透明度、以及数据分布带来的深层影响。从视频理解到agent系统,从文本频率到指令鲁棒性,大家在做的事情本质上都是一样的:如何在追求性能提升的同时,真正理解和控制我们构建的这些系统。这种求真务实的态度,或许也是AI for Science领域最需要借鉴的。