Paper Morning 2026-04-23
2026-04-23
各位早上好,Paper Morning又和大家见面了。
今天想先从一个观察聊起。最近大家可能注意到了,AI圈子里“统一”这个词出现的频率越来越高从前两年的多模态统一,到今年的智能体统一,似乎每个团队都在试图用一个框架把所有能力装进去。那这种统一思潮背后到底意味着什么我觉得是值得思考的。
今天第一篇论文LLaDA2.0-Uni就是一个典型的统一尝试,它把多模态理解和生成整合到一个离散扩散大语言模型里。核心做法是用一个全语义离散tokenizer把视觉信息变成token,然后在骨干网络里统一做block级别的masked diffusion,最后用一个扩散解码器重建图像。这个架构挺巧妙的,它把理解和生成放在同一个语义空间里处理,而不是像以前那样分成两个独立的模块。不过我更关心的是它为什么现在出现你们想,离散扩散这个方向其实已经有一段时间了,但之前大家都在各自为战,有人做文本,有人做图像,现在突然有人跳出来说要在一个模型里把视觉和语言对齐,这背后反映的其实是整个社区对“统一表示”的执念。说实话,从技术上看这个工作确实把多模态的边界又往前推了一步,但它真的解决了根本问题吗我觉得还有待观察,因为它更多是在架构层面做统一,而真正的统一应该是语义层面的。
聊完多模态统一,我们来看看三维重建这个老问题。今天第二篇论文AnyRecon提出了一个叫做任意视角三维重建的框架。你们知道的,传统三维重建需要很多视角的照片,但实际场景中我们往往只有几张稀疏的照片。以往的扩散模型方法虽然能合成新视角,但通常只 conditioning在一两帧上面,这样很难保证几何一致性,场景稍微复杂一点就容易翻车。AnyRecon的创新在于它引入了一个全局场景记忆模块,把所有输入视角的信息都缓存起来,这样在做新视角生成的时候就能保持长程的一致性。同时它还解耦了时间压缩,让每一帧都能对应到原始输入。这个思路其实很像我们做PDE求解时候的全局信息传递,把局部的约束和全局的约束分开处理,效果往往比混在一起好。
接下来这个工作有点意思。RLVR——就是带可验证奖励的强化学习——现在已经成为大模型后训练的标准范式了。但这里有个核心问题: off-policy的轨迹到底该怎么选以往的方法要么从外部老师模型采样,质量高但分布太远,要么从自己过去的轨迹 replay,距离近但质量有上限。论文提出的Near-Future Policy Optimization想解决的是能不能找到一种轨迹,同时满足“强到足以提供新的知识”和“近到能被当前策略快速吸收”这两个看似矛盾的条件。它的核心思路是学习一个near-future的策略,用它来采样比当前策略稍微领先一点点的轨迹。这让我想到物理模拟里的prediction-correction方法:不一定非要有完美的未来预测,有个稍微领先一点的预测就能指导当前步骤的调整。这个思想迁移到RL里,效果看起来确实不错。
然后我们来看一个更偏向应用的工作。SmartPhotoCrafter做的是自动化的摄影图像编辑一句话概括就是,它不需要用户懂什么光圈、快门、ISO这些参数,只需要上传一张照片,系统会自动诊断图像质量问题,然后针对性地调整,让照片看起来更专业。这个想法其实挺产品思维的,但它背后有两个模块:Image Critic做质量诊断,Photographic Artist做美学调整。这让我想到我们AI4S里经常说的forward和inverse problem:诊断问题本质上是inverse problem——从观测到的图像反推质量缺陷;而修复是forward problem——根据缺陷生成改进后的图像。把这两个分开处理,再通过一个tightly coupled的方式连接,这个设计挺值得借鉴的。
最后一个小paper很有意思。DR-Venus,研究怎么用很少的数据——只有一万条开源数据——训练出一个能在边缘设备上运行的deep research智能体。你们知道现在很多智能体都依赖大模型,部署成本很高。那这个工作就想证明,小模型配合高质量数据也能达到不错的效果。它的训练分两阶段:先用agentic supervised fine-tuning建立基础能力,重点是严格的数据清洗和长程轨迹的重采样;然后用agentic reinforcement learning进一步提升执行可靠性。这个思路其实和我们做科学计算时候的数据增强有点像:不在于数据量有多大,而在于数据的多样性和质量。当然,一万条数据确实很少,但它展示了一种可能性,就是在小数据场景下,通过精细的训练策略也能撬动大能力。
好,我们今天聊了五篇论文,从多模态统一到三维重建,从强化学习策略优化到AI辅助摄影,再到小模型的智能体训练。表面上它们各自在不同的应用领域,但如果你仔细看,会发现一个共同的线索:大家都在试图用更少的资源、更统一的框架,去做更复杂的事情。LLaDA2.0-Uni用一个模型统一理解和生成,AnyRecon用全局记忆减少对输入视角的依赖,NPO用near-future策略减少对高质量teacher的依赖,SmartPhotoCrafter用自动诊断减少对人类专家的依赖,DR-Venus用高质量数据减少对数据量的依赖。这可能代表了一个趋势:当 scaling 的红利开始放缓,大家开始回头思考“效率”这件事本身。好了,明天见。