AI 精选动态
智能评分 85
Introducing DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation
AI 推荐理由
该方法提供了一种新颖的内存优化训练策略,支持多种架构,值得开发者深入研究实现细节。核心解读
研究团队提出DiffusionBlocks框架,通过将神经网络按块训练来显著降低内存需求,同时在ViT、DiT、Masked diffusion、Autoregressive transformers和Recurrent-depth transformers等五种架构上验证了性能与端到端训练相当。该方法将Looped transformers的多次迭代替换为单次前向传播,避免昂贵的BPTT。