AI 精选动态智能评分 62

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-05-24

收录于: 2026-05-24

AI 推荐理由

值得关注其“16维索引器+选择性稀疏化”的实现方式，适合评估是否能迁移到现有长上下文推理优化链路中。

核心解读

Alibaba 和 Nanjing Univ 的论文提出 RTPurbo，称可在仅进行轻量适配的情况下，将百万 token prefill 速度相对 FlashAttention-2 提升最高 9.36 倍，并将 decoding 速度提升约 2 倍。论文认为标准 full-attention LLM 已包含隐藏的稀疏结构，因此无需从头重训；RTPurbo 通过识别少数需要远距离 token 的 attention heads，并用 16 维 token finder 先筛选旧 token，再只对候选集合执行真实 attention。作者在长上下文基准和推理任务上测试后表示，RTPurbo 在保持接近 full attention 准确率的同时，实现了上述加速。

#研究突破#基础设施#基准测试

阅读原始全文