AI 精选动态
智能评分 74
DiffusionBlocks
AI 推荐理由
可重点查看其 block-wise 训练范式是否真能在不明显损失性能的前提下显著降低显存,并判断其是否适合现有 ViT、DiT 和 Transformer 训练管线复现。核心解读
Sakana AI 转发并介绍了 hardmaru 提出的 DiffusionBlocks:一种将网络按 block 拆分、逐块独立训练的框架。该方法把网络前向过程重新解释为 diffusion 的逐步去噪,在 #ICLR2026 论文中声称可大幅降低训练深层模型所需显存,同时在 ViT、DiT、masked diffusion、autoregressive transformers 和 recurrent-depth transformers 上达到与 end-to-end training 可比的效果。作者还表示,训练时一次只需保留单个 block 的内存,并可将 recurrent-depth(Looped)transformers 原本需要的 BPTT 多次迭代替换为单次前向训练。