Paper Morning 2026-04-01

2026-04-01

各位早上好,今天周三,Paper Morning来和大家聊聊最近社区里热议的几项工作。 先看一篇很有意思的生物基础模型工作。Lingshu-Cell提出了一个针对单细胞转录组数据的生成式模型,它用masked discrete diffusion直接在学习到的离散token空间里建模基因表达的概率分布。这件事为什么重要呢?因为过去单细胞领域的foundation model主要做的是静态表示学习,给你一个细胞,它能给你一个embedding,但你没办法让它生成新的细胞状态,也没办法做条件模拟。而Lingshu-Cell这次把生成式扩散和条件生成的能力带进来了,某种意义上是在为“虚拟细胞”这个愿景铺路。约18000个基因的依赖关系直接在一个离散空间里建模,这个魄力值得注意。 然后是一篇survey,Project Imaging-X梳理了超过一千个开源医学影像数据集。这篇工作的价值不在于方法创新,而在于它回答了一个根本问题:医学影像领域为什么做不出强大的foundation model?答案很简单也很残酷——缺数据,而且这个缺数据不是数量问题,是隐私、标注、异构性的问题。这篇survey把现有数据集的模态、任务、解剖部位、标注质量都摊开来看,给后续想在这一领域做基础模型的人提供了一个非常实用的全景图。我觉得它更大的意义是提醒我们:AI4S的很多领域,不是模型不够强,是数据基础设施还没准备好。 接着来看视频生成的一篇新工作VGGRPO。这个工作的出发点很直接:现在的大规模视频diffusion model生成质量不错,但几何一致性很差,之前的方法要么改模型架构要么在RGB空间做alignment,代价都太高。VGGRPO提出了一个latent空间里的geometry-guided reward,在冻结预训练模型的前提下做post-training,这样既保留了原模型的能力,又能提升几何一致性。这里有个值得思考的趋势:也许未来我们不需要从零训一个几何一致的视频模型,而是在已有模型基础上做针对性后训练就能达到目的。这和语言模型里RLHF的思路其实是一脉相承的。 第四篇 LongCat-Next 提出了一种叫DiNA的统一多模态框架,核心思想是把各种模态都离散化成token,然后在离散空间里做自回归。这和现在主流的“语言是核心、其他模态是附件”的多模态架构不太一样。作者还专门设计了一个任意分辨率的visual transformer叫dNaViT,来处理连续的视觉信号到离散token的转换。这个工作的野心很明显:想在一个框架里统一所有模态的建模方式。如果成了,那可能真的会改变我们设计多模态系统的基础范式。 最后来看一篇强化学习算法的工作FIPO。现在大语言模型做推理的时候,GRPO这类方法用的是outcome-based reward,把整个回答的正确与否当作一个全局信号来分配advantage。FIPO的作者指出这样做太粗粒度了,推理过程中那些关键的逻辑转折点和普通的填充词被同等对待,模型的学习效率就会卡在某个天花板下面。FIPO引入了discounted future-KL divergence,把每个token的credit assignment和它对未来轨迹的影响挂钩,形成了一种更细粒度的advantage计算。实验结果显示模型能突破长度停滞,真正开始进行深度推理。这个思路其实和control theory里的credit assignment问题很像,放在LLM训练里很有启发性。 好,把今天的五篇论文放在一起看,我看到一个很清晰的趋势在浮现:从统一表征到精细化训练。LongCat-Next在尝试用离散token统一所有模态的表征,Imaging-X在为医学影像的基础模型铺路,Lingshu-Cell把生成式能力引入生物领域的表示学习,这些都是表征层面的突破。而VGGRPO和FIPO则代表另一个方向——如何在已有的基础模型上,通过更精细的后训练来激发新的能力,无论是几何一致性还是深度推理。这两条路最后会不会殊途同归,可能才是接下来几年最值得关注的问题。早上好,继续加油。

本期涉及论文