返回精选
AI 精选动态 智能评分 66

Rethinking Cross-Layer Information Routing in Diffusion Transformers

来源: twitter关注列表
作者: Rohan Paul (@rohanpaul_ai)
发布于: 2026-05-28
收录于: 2026-05-28
AI 推荐理由
这篇工作的价值在于它把优化重点从 attention、tokenizer 和 loss 转向 residual connection 与跨层路由机制,适合关注 Diffusion Transformer 训练效率的人直接看方法细节。
核心解读
研究者在论文《Rethinking Cross-Layer Information Routing in Diffusion Transformers》中指出,Image diffusion Transformers 训练缓慢的一个关键原因在于层间信息传递方式固定且过时。作者观察到标准 residual stack 存在三类问题:前向信号幅度过大、反向梯度衰减、相邻 block 学到几乎相同的特征。为此提出 Diffusion-Adaptive Routing,让每一层根据 denoising timestep 选择使用哪些更早层的输出;在相同图像质量下,训练迭代次数减少了 8.75 倍。
#研究突破#技术突破#多模态