Paper Morning 2026-04-23

各位早上好，Paper Morning又和大家见面了。今天想先从一个观察聊起。最近大家可能注意到了，AI圈子里“统一”这个词出现的频率越来越高从前两年的多模态统一，到今年的智能体统一，似乎每个团队都在试图用一个框架把所有能力装进去。那这种统一思潮背后到底意味着什么我觉得是值得思考的。今天第一篇论文LLaDA2.0-Uni就是一个典型的统一尝试，它把多模态理解和生成整合到一个离散扩散大语言模型里。核心做法是用一个全语义离散tokenizer把视觉信息变成token，然后在骨干网络里统一做block级别的masked diffusion，最后用一个扩散解码器重建图像。这个架构挺巧妙的，它把理解和生成放在同一个语义空间里处理，而不是像以前那样分成两个独立的模块。不过我更关心的是它为什么现在出现你们想，离散扩散这个方向其实已经有一段时间了，但之前大家都在各自为战，有人做文本，有人做图像，现在突然有人跳出来说要在一个模型里把视觉和语言对齐，这背后反映的其实是整个社区对“统一表示”的执念。说实话，从技术上看这个工作确实把多模态的边界又往前推了一步，但它真的解决了根本问题吗我觉得还有待观察，因为它更多是在架构层面做统一，而真正的统一应该是语义层面的。聊完多模态统一，我们来看看三维重建这个老问题。今天第二篇论文AnyRecon提出了一个叫做任意视角三维重建的框架。你们知道的，传统三维重建需要很多视角的照片，但实际场景中我们往往只有几张稀疏的照片。以往的扩散模型方法虽然能合成新视角，但通常只 conditioning在一两帧上面，这样很难保证几何一致性，场景稍微复杂一点就容易翻车。AnyRecon的创新在于它引入了一个全局场景记忆模块，把所有输入视角的信息都缓存起来，这样在做新视角生成的时候就能保持长程的一致性。同时它还解耦了时间压缩，让每一帧都能对应到原始输入。这个思路其实很像我们做PDE求解时候的全局信息传递，把局部的约束和全局的约束分开处理，效果往往比混在一起好。接下来这个工作有点意思。RLVR——就是带可验证奖励的强化学习——现在已经成为大模型后训练的标准范式了。但这里有个核心问题： off-policy的轨迹到底该怎么选以往的方法要么从外部老师模型采样，质量高但分布太远，要么从自己过去的轨迹 replay，距离近但质量有上限。论文提出的Near-Future Policy Optimization想解决的是能不能找到一种轨迹，同时满足“强到足以提供新的知识”和“近到能被当前策略快速吸收”这两个看似矛盾的条件。它的核心思路是学习一个near-future的策略，用它来采样比当前策略稍微领先一点点的轨迹。这让我想到物理模拟里的prediction-correction方法：不一定非要有完美的未来预测，有个稍微领先一点的预测就能指导当前步骤的调整。这个思想迁移到RL里，效果看起来确实不错。然后我们来看一个更偏向应用的工作。SmartPhotoCrafter做的是自动化的摄影图像编辑一句话概括就是，它不需要用户懂什么光圈、快门、ISO这些参数，只需要上传一张照片，系统会自动诊断图像质量问题，然后针对性地调整，让照片看起来更专业。这个想法其实挺产品思维的，但它背后有两个模块：Image Critic做质量诊断，Photographic Artist做美学调整。这让我想到我们AI4S里经常说的forward和inverse problem：诊断问题本质上是inverse problem——从观测到的图像反推质量缺陷；而修复是forward problem——根据缺陷生成改进后的图像。把这两个分开处理，再通过一个tightly coupled的方式连接，这个设计挺值得借鉴的。最后一个小paper很有意思。DR-Venus，研究怎么用很少的数据——只有一万条开源数据——训练出一个能在边缘设备上运行的deep research智能体。你们知道现在很多智能体都依赖大模型，部署成本很高。那这个工作就想证明，小模型配合高质量数据也能达到不错的效果。它的训练分两阶段：先用agentic supervised fine-tuning建立基础能力，重点是严格的数据清洗和长程轨迹的重采样；然后用agentic reinforcement learning进一步提升执行可靠性。这个思路其实和我们做科学计算时候的数据增强有点像：不在于数据量有多大，而在于数据的多样性和质量。当然，一万条数据确实很少，但它展示了一种可能性，就是在小数据场景下，通过精细的训练策略也能撬动大能力。好，我们今天聊了五篇论文，从多模态统一到三维重建，从强化学习策略优化到AI辅助摄影，再到小模型的智能体训练。表面上它们各自在不同的应用领域，但如果你仔细看，会发现一个共同的线索：大家都在试图用更少的资源、更统一的框架，去做更复杂的事情。LLaDA2.0-Uni用一个模型统一理解和生成，AnyRecon用全局记忆减少对输入视角的依赖，NPO用near-future策略减少对高质量teacher的依赖，SmartPhotoCrafter用自动诊断减少对人类专家的依赖，DR-Venus用高质量数据减少对数据量的依赖。这可能代表了一个趋势：当 scaling 的红利开始放缓，大家开始回头思考“效率”这件事本身。好了，明天见。

Paper Morning 2026-04-23

本期涉及论文