返回精选
AI 精选动态 智能评分 65

MiniMax Sparse Attention

来源: twitter关注列表
作者: Rohan Paul (@rohanpaul_ai)
发布于: 2026-06-15
收录于: 2026-06-15
AI 推荐理由
与全注意力相比,MSA 通过架构内的可训练选择器动态选取相关键值块,实现数量级加速,值得阅读原文了解路由设计细节。
核心解读
MiniMax 提出 Sparse Attention(MSA),在 H800 GPU 上实现了 attention 计算量减少 28.4 倍、prefill 加速 14.2 倍、decoding 加速 7.6 倍,同时保持与全注意力版本相当的基准性能。该方法在 Grouped Query Attention 基础上增加小型路由分支,让每个查询组选择要检查的 key-value 块,主分支仅在这些选定块内执行精确注意力。
#技术突破#大模型#研究