AI 精选动态
智能评分 66
Rethinking Cross-Layer Information Routing in Diffusion Transformers
AI 推荐理由
这篇工作的价值在于它把优化重点从 attention、tokenizer 和 loss 转向 residual connection 与跨层路由机制,适合关注 Diffusion Transformer 训练效率的人直接看方法细节。核心解读
研究者在论文《Rethinking Cross-Layer Information Routing in Diffusion Transformers》中指出,Image diffusion Transformers 训练缓慢的一个关键原因在于层间信息传递方式固定且过时。作者观察到标准 residual stack 存在三类问题:前向信号幅度过大、反向梯度衰减、相邻 block 学到几乎相同的特征。为此提出 Diffusion-Adaptive Routing,让每一层根据 denoising timestep 选择使用哪些更早层的输出;在相同图像质量下,训练迭代次数减少了 8.75 倍。