返回精选
AI 精选动态 智能评分 66

MiniMax Sparse Attention

来源: twitter关注列表
作者: Chubby♨️ (@kimmonismus)
发布于: 2026-05-26
收录于: 2026-05-26
AI 推荐理由
可重点关注其两阶段稀疏注意力设计,以及它在 100 万 tokens 长上下文下相对 M2 的加速幅度,适合判断长上下文推理优化的可复现路径。
核心解读
MiniMax 预告了用于 M3 的 Sparse Attention 架构,并给出基准结果:在 100 万 tokens 场景下,相比 M2,prefilling 速度提升 9.7 倍,decoding 速度提升 15.6 倍。MiniMax 此前在 M2 上曾刻意回退到 full attention,因为当时 efficient attention 还不适合生产环境;其 pretrain lead 在 3 月曾专门发文解释这一点。新方案采用两阶段设计:先用轻量 index branch 做 block 选择,再只对相关 KV blocks 应用 sparse attention。
#模型发布#技术突破#大模型