AI 精选动态智能评分 68

DiffusionBlocks

来源: twitter关注列表

作者: Sakana AI (@SakanaAILabs)

发布于: 2026-05-27

收录于: 2026-05-27

AI 推荐理由

该方法把“逐块训练”与 diffusion 的逐步去噪过程建立了可解释对应关系，并给出了跨 5 类架构的验证，适合关注低显存训练与 recurrent-depth 模型训练范式的人直接阅读原文。

核心解读

Sakana AI 与东京大学小山雅典共同提出训练框架 DiffusionBlocks，并作为 #ICLR2026 论文发表。该方法将神经网络按 block 切分后逐块独立训练，使训练时所需内存可降到仅需单个 block 的规模，同时在 5 种架构上验证了与端到端训练相当的性能。验证对象包括 ViT、DiT、Masked Diffusion、AR Transformer 和 Recurrent-depth Transformer，其中后者还展示了无需通常的 backpropagation through time、可用一次 forward pass 进行高效训练。

#研究突破#基础设施#模型发布

阅读原始全文