AI 精选动态智能评分 74

DiffusionBlocks

来源: twitter关注列表

作者: Sakana AI (@SakanaAILabs)

发布于: 2026-05-27

收录于: 2026-05-27

AI 推荐理由

可重点查看其 block-wise 训练范式是否真能在不明显损失性能的前提下显著降低显存，并判断其是否适合现有 ViT、DiT 和 Transformer 训练管线复现。

核心解读

Sakana AI 转发并介绍了 hardmaru 提出的 DiffusionBlocks：一种将网络按 block 拆分、逐块独立训练的框架。该方法把网络前向过程重新解释为 diffusion 的逐步去噪，在 #ICLR2026 论文中声称可大幅降低训练深层模型所需显存，同时在 ViT、DiT、masked diffusion、autoregressive transformers 和 recurrent-depth transformers 上达到与 end-to-end training 可比的效果。作者还表示，训练时一次只需保留单个 block 的内存，并可将 recurrent-depth（Looped）transformers 原本需要的 BPTT 多次迭代替换为单次前向训练。

#研究突破#技术突破#大模型

阅读原始全文