AI 精选动态智能评分 66

MiniMax Sparse Attention

来源: twitter关注列表

作者: Chubby♨️ (@kimmonismus)

发布于: 2026-05-26

收录于: 2026-05-26

AI 推荐理由

可重点关注其两阶段稀疏注意力设计，以及它在 100 万 tokens 长上下文下相对 M2 的加速幅度，适合判断长上下文推理优化的可复现路径。

核心解读

MiniMax 预告了用于 M3 的 Sparse Attention 架构，并给出基准结果：在 100 万 tokens 场景下，相比 M2，prefilling 速度提升 9.7 倍，decoding 速度提升 15.6 倍。MiniMax 此前在 M2 上曾刻意回退到 full attention，因为当时 efficient attention 还不适合生产环境；其 pretrain lead 在 3 月曾专门发文解释这一点。新方案采用两阶段设计：先用轻量 index branch 做 block 选择，再只对相关 KV blocks 应用 sparse attention。

#模型发布#技术突破#大模型

阅读原始全文