返回精选
AI 精选动态 智能评分 85

Introducing DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation

来源: twitter关注列表
作者: Sakana AI (@SakanaAILabs)
发布于: 2026-05-27
收录于: 2026-05-27
AI 推荐理由
该方法提供了一种新颖的内存优化训练策略,支持多种架构,值得开发者深入研究实现细节。
核心解读
研究团队提出DiffusionBlocks框架,通过将神经网络按块训练来显著降低内存需求,同时在ViT、DiT、Masked diffusion、Autoregressive transformers和Recurrent-depth transformers等五种架构上验证了性能与端到端训练相当。该方法将Looped transformers的多次迭代替换为单次前向传播,避免昂贵的BPTT。
#模型发布#研究突破#技术突破