Paper Morning 2026-04-13
2026-04-13
各位早上好,Paper Morning又和大家见面了。
今天想和大家聊几篇挺有意思的论文,它们看似来自不同方向,但我觉得背后有一条主线贯穿着。
先说第一篇,Matrix-Game 3.0。这是一个做实时视频生成世界模型的工作,用diffusion model来做720p的长视频交互。大家可能还记得去年、前年 diffusion model 在图像生成、视频生成上的爆发,但真正用到实时的物理模拟场景里,长期一致性是个大难题。这篇工作做了个挺实在的升级——搞了一套工业级的数据引擎,把虚幻引擎的合成数据、AAA游戏的大规模采集,还有真实世界的视频都整合到一起,然后用改进的模型架构实现了长期记忆和实时生成的兼顾。说实话,这不仅是做游戏的事,我们在AI4S里做物理模拟、做世界模型,其实同样面临长期一致性的问题。他们这套数据引擎的思路,或许能给做PDE求解、分子动力学模拟的朋友们一些启发。
然后说WildDet3D,这篇我覺得挺有野心。它试图解决一个很根本的问题:现在的3D目标检测要么只能测固定类别,要么对开放世界的新物体没辙。WildDet3D提出了一个统一的几何感知架构,既能支持多种prompt方式,又能利用几何线索,而且专门针对开放世界的泛化来设计。大家有没有想过,我们在科学计算里训练的那些神经网络,其实也常常被困在“训练分布”里?遇到没见过的方程、没见过的物理场景,泛化就失灵了。这篇工作用几何先验来增强泛化的思路,其实跟我们在neural operator里强调的“抓住物理对称性”是一个道理,只是他们从视觉角度,我们从方程角度。
第三篇FORGE是关于制造业场景的多模态大模型评估。这个方向很有意思,因为它把MLLM从“能看懂图片”拉到了“能不能干实事”的层面。他们构建了一个高质量的制造业多模态数据集,评估了18个主流模型在工件验证、结构表面检测、装配验证这些实际任务上的表现。结果发现,性能gap非常大,很多模型连基本的工业级要求都达不到。这个工作给我们的提醒是:无论是做视觉的还是做语言模型的,别总在通用benchmark上刷分,真正的硬仗在垂直领域。
接下来这篇ClawBench很有趣,它不做模型,而是做了一套评估AI agent的基准。153个日常任务,144个真实平台,15个类别,从下单买的东西到预约挂号,再到填求职申请表,覆盖了方方面面。大家可能觉得,这不就是自动化鼠标键盘操作吗?但仔细一看,这些任务需要从用户提供的文档里提取信息,要跨平台多步骤工作流,还要写大量详细的表单。这其实测的是agent的规划、推理和执行能力。我一直在想,我们做AI for Science的,最终目标不就是让AI能自己设计实验、分析数据、甚至提出科学假设吗?ClawBench这套思路,其实给科研agent的评估提供了一个很好的参照。
最后这篇Rethinking Generalizing in Reasoning SFT,非常值得细读。它直接挑战了一个流行的说法:SFT只是记忆,RL才能泛化。作者通过大量实验发现,推理任务的泛化其实是有条件的,跟优化动态、训练数据、基础模型能力都有关。他们还观察到一个很关键的现象:跨域性能会先下降再恢复,如果训练 checkpoint 取得太早,会低估泛化能力。这给我们的启示是:别急着下结论,很多所谓的“失败”可能只是训练不够。这对我们在做SFT、RLHF的老师们来说,是个很好的提醒。
好,总结一下今天的观察。这五篇论文加起来,我看到一个共同的关键词在浮现:泛化。无论是世界模型要在没见过的场景里保持一致性,3D检测要识别训练集里没有的物体,MLLM要在工业环境里从实验室走向产线,还是agent要在真实平台上完成多样化的任务,以及大语言模型要在不同领域展现推理能力——大家都在面对同一个根本挑战:如何从“能做题”走向“能做事”。这不是某一项技术的突破能解决的,而是需要数据、模型、训练范式、评估体系全方位的迭代。这大概也是AI4S正在经历的阶段:从单一任务的solver,走向能应对真实复杂场景的基础能力。今天的分享就到这里,我们明天见。