Paper Morning 2026-04-02

各位早上好，欢迎来到Paper Morning。今天想先从一篇数据集调研工作聊起。过去几年，我们见证了视觉语言模型在自然图像上的爆发式进步，一个重要原因是有ImageNet、COCO这样的大规模benchmark。那么在医学影像领域，基础模型的发展能否复制同样的路径？这篇Project Imaging-X给出了目前最全面的答案。作者团队调研了超过一千个开放获取的医学影像数据集，涵盖CT、MRI、超声、病理切片等多种模态，并且系统标注了每个数据集的任务类型、解剖部位、标注质量等信息。这个工作的价值不仅在于整理，更在于揭示了一个我们不得不面对的现实：医学影像数据的碎片化程度远超想象，不同医院、不同设备、不同标注标准的数据难以直接规模化使用。作者在分析中也指出了几条可行的整合路径，比如通过预训练模型来弥补数据分布差异。这让我想到，这与我们在科学计算领域面临的困境何其相似——PDE求解器的训练数据同样分散在不同的物理场景中，如何构建统一的基础模型，可能是下一步最值得投入的方向。聊完数据，我们来看一篇关于AI agent架构的文章。Terminal Agents Suffice for Enterprise Automation提出了一个颇有些反直觉的论点：那些能够操作图形界面、使用复杂工具链的企业级代理，其实并不一定比只配备终端和文件系统的简单代理更强。作者在多个真实企业系统上做了对比实验，发现这些低层次终端代理不仅不落下风，在某些任务上反而更高效。这个结论让我思考一个问题：我们是不是在AI for Science的agent设计上过度工程化了？比如在科学发现流程中，我们需要的是复杂的多步推理，还是一个能够可靠执行命令的简洁接口？这篇工作给出的启示或许不在于技术细节，而在于提醒我们重新审视什么是真正有用的agent能力。接下来这个工作与安全问题密切相关。OpenClaw是一个开源的自主代理运行时，支持工具集成、文件访问和Shell命令执行。但正如大家所担心的，这类系统一旦出错，代价可能是敏感数据泄露甚至权限提升。ClawKeeper就是为解决这个风险而设计的，作者提出了一个三层防护架构，在技能、插件和监控三个维度上构建实时保护。这是一个很务实的工程工作，但也折射出一个更深层的问题：当我们的AI agent越来越强大，能够操纵文件系统甚至执行系统命令时，安全不再是事后考虑的附件，而是系统设计的核心部分。对于那些想要把agent用于科学计算的朋友，这点尤其值得注意——如果一个代理可以调用外部求解器、修改实验参数，我们是否准备好了相应的安全护栏？再来看一篇评估框架的工作。MiroEval: Benchmarking Multimodal Deep Research Agents很有意思，因为它不仅评估最终的研究报告，还关注整个研究过程。现有的很多benchmark只看结果对不对，但真实的研究工作流往往充满探索和试错。作者构建了一百个任务，包括文本和 multimodal 两种类型，并且设计了可更新的双路径 pipeline 来适应知识的演进。评估维度上，他们关注过程和结果两个track。这让我想到，其实在科学发现的评估上我们同样面临类似困境——一篇论文的贡献不仅是结论，还有背后的推理链条和方法论创新。如果AI agent要真正帮助科研，它的评估方式也需要革新，而不只是看能不能复现某个实验结果。最后一篇ViGoR-Bench把视角拉回到了视觉生成模型。他们指出一个被忽视的问题：现在的AIGC模型在视觉质量上已经相当惊人，但在需要物理推理、因果推理或者空间推理的任务上表现稀烂。作者称之为“逻辑荒漠”。ViGoR这个benchmark设计了四种创新机制来系统性地诊断这个问题，包括跨模态覆盖、过程与结果的双轨评估、基于证据的自动化裁判，以及细粒度的诊断分析。这个工作的意义在于提醒我们：生成模型的进步不能只看像素层面的指标，那些看似简单的常识推理，可能才是当前范式的根本短板。这对于我们思考科学计算中的生成式模型也有借鉴——当我们用diffusion model来生成流体仿真或分子结构时，是否也在无意中牺牲了物理一致性？好，让我们回到今天的整体观察。这五篇论文看似分散在agent、安全、评估、视觉生成这些不同方向，但如果我们把它们放在一起看，有一个共同的线索贯穿着：那就是AI系统正在从“能做什么”转向“能不能放心用”。数据碎片化需要治理，agent架构需要权衡安全与能力，评估标准需要超越表面的指标，生成模型需要重建推理根基——这些都是基础模型走向成熟过程中必须回答的问题。在AI for Science的语境下，这意味着我们不仅需要更强的模型，更需要一整套围绕数据、安全、评估和物理一致性的基础设施。今天的论文或许 individually 不是惊世之作，但它们共同勾勒的，正是这个基础设施逐步成型的轮廓。好了以上就是今天的Paper Morning，我是你们的主播，明天见。

Paper Morning 2026-04-02

本期涉及论文