返回精选
AI 精选动态 智能评分 74

DiffusionBlocks

来源: twitter关注列表
作者: Sakana AI (@SakanaAILabs)
发布于: 2026-05-27
收录于: 2026-05-27
AI 推荐理由
可重点查看其 block-wise 训练范式是否真能在不明显损失性能的前提下显著降低显存,并判断其是否适合现有 ViT、DiT 和 Transformer 训练管线复现。
核心解读
Sakana AI 转发并介绍了 hardmaru 提出的 DiffusionBlocks:一种将网络按 block 拆分、逐块独立训练的框架。该方法把网络前向过程重新解释为 diffusion 的逐步去噪,在 #ICLR2026 论文中声称可大幅降低训练深层模型所需显存,同时在 ViT、DiT、masked diffusion、autoregressive transformers 和 recurrent-depth transformers 上达到与 end-to-end training 可比的效果。作者还表示,训练时一次只需保留单个 block 的内存,并可将 recurrent-depth(Looped)transformers 原本需要的 BPTT 多次迭代替换为单次前向训练。
#研究突破#技术突破#大模型