AI 精选动态
智能评分 62
Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps
AI 推荐理由
值得关注其“16维索引器+选择性稀疏化”的实现方式,适合评估是否能迁移到现有长上下文推理优化链路中。核心解读
Alibaba 和 Nanjing Univ 的论文提出 RTPurbo,称可在仅进行轻量适配的情况下,将百万 token prefill 速度相对 FlashAttention-2 提升最高 9.36 倍,并将 decoding 速度提升约 2 倍。论文认为标准 full-attention LLM 已包含隐藏的稀疏结构,因此无需从头重训;RTPurbo 通过识别少数需要远距离 token 的 attention heads,并用 16 维 token finder 先筛选旧 token,再只对候选集合执行真实 attention。作者在长上下文基准和推理任务上测试后表示,RTPurbo 在保持接近 full attention 准确率的同时,实现了上述加速。