返回精选
AI 精选动态 智能评分 62

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

来源: twitter关注列表
作者: Rohan Paul (@rohanpaul_ai)
发布于: 2026-05-24
收录于: 2026-05-24
AI 推荐理由
值得关注其“16维索引器+选择性稀疏化”的实现方式,适合评估是否能迁移到现有长上下文推理优化链路中。
核心解读
Alibaba 和 Nanjing Univ 的论文提出 RTPurbo,称可在仅进行轻量适配的情况下,将百万 token prefill 速度相对 FlashAttention-2 提升最高 9.36 倍,并将 decoding 速度提升约 2 倍。论文认为标准 full-attention LLM 已包含隐藏的稀疏结构,因此无需从头重训;RTPurbo 通过识别少数需要远距离 token 的 attention heads,并用 16 维 token finder 先筛选旧 token,再只对候选集合执行真实 attention。作者在长上下文基准和推理任务上测试后表示,RTPurbo 在保持接近 full attention 准确率的同时,实现了上述加速。
#研究突破#基础设施#基准测试