AI 精选动态智能评分 65

MiniMax Sparse Attention

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-06-15

收录于: 2026-06-15

AI 推荐理由

与全注意力相比，MSA 通过架构内的可训练选择器动态选取相关键值块，实现数量级加速，值得阅读原文了解路由设计细节。

核心解读

MiniMax 提出 Sparse Attention（MSA），在 H800 GPU 上实现了 attention 计算量减少 28.4 倍、prefill 加速 14.2 倍、decoding 加速 7.6 倍，同时保持与全注意力版本相当的基准性能。该方法在 Grouped Query Attention 基础上增加小型路由分支，让每个查询组选择要检查的 key-value 块，主分支仅在这些选定块内执行精确注意力。

#技术突破#大模型#研究

阅读原始全文