AI 精选动态
智能评分 68
DiffusionBlocks
AI 推荐理由
该方法把“逐块训练”与 diffusion 的逐步去噪过程建立了可解释对应关系,并给出了跨 5 类架构的验证,适合关注低显存训练与 recurrent-depth 模型训练范式的人直接阅读原文。核心解读
Sakana AI 与东京大学小山雅典共同提出训练框架 DiffusionBlocks,并作为 #ICLR2026 论文发表。该方法将神经网络按 block 切分后逐块独立训练,使训练时所需内存可降到仅需单个 block 的规模,同时在 5 种架构上验证了与端到端训练相当的性能。验证对象包括 ViT、DiT、Masked Diffusion、AR Transformer 和 Recurrent-depth Transformer,其中后者还展示了无需通常的 backpropagation through time、可用一次 forward pass 进行高效训练。