AI 精选动态
智能评分 66
MiniMax Sparse Attention
AI 推荐理由
可重点关注其两阶段稀疏注意力设计,以及它在 100 万 tokens 长上下文下相对 M2 的加速幅度,适合判断长上下文推理优化的可复现路径。核心解读
MiniMax 预告了用于 M3 的 Sparse Attention 架构,并给出基准结果:在 100 万 tokens 场景下,相比 M2,prefilling 速度提升 9.7 倍,decoding 速度提升 15.6 倍。MiniMax 此前在 M2 上曾刻意回退到 full attention,因为当时 efficient attention 还不适合生产环境;其 pretrain lead 在 3 月曾专门发文解释这一点。新方案采用两阶段设计:先用轻量 index branch 做 block 选择,再只对相关 KV blocks 应用 sparse attention。