AI 精选动态
智能评分 65
MiniMax Sparse Attention
AI 推荐理由
与全注意力相比,MSA 通过架构内的可训练选择器动态选取相关键值块,实现数量级加速,值得阅读原文了解路由设计细节。核心解读
MiniMax 提出 Sparse Attention(MSA),在 H800 GPU 上实现了 attention 计算量减少 28.4 倍、prefill 加速 14.2 倍、decoding 加速 7.6 倍,同时保持与全注意力版本相当的基准性能。该方法在 Grouped Query Attention 基础上增加小型路由分支,让每个查询组选择要检查的 key-value 块,主分支仅在这些选定块内执行精确注意力。