AI 精选动态智能评分 67

MiMo API 降价

来源: twitter关注列表

作者: Fuli Luo (@_LuoFuli)

发布于: 2026-05-27

收录于: 2026-05-27

AI 推荐理由

这条内容除了价格调整，还给出了分层 KV cache 优化、1:7 稀疏比和 70 层 MiMo-V2.5-Pro 对齐 10 层 GQA 的成本结构，适合关注推理降本和 API 定价策略的人继续看后续技术博客。

核心解读

MiMo 团队解释了其 API 降价原因：Input（Cache Hit）最高降价 99%，核心来自推理框架支持面向 SWA 的分层 KV cache 优化。生产推理引擎测试显示，该优化将缓存 token 容量提升 5 倍，相当于缓存成本下降 80%；同时，Hybrid 模型中多个 Full Attention 模块之间的 Cache Read Overlap 进一步降低了实际成本。Input（Cache Miss）和 Output 价格也下调了 60%–80%，主要受益于模型架构带来的 1:7 Full:SWA 稀疏比，70 层 MiMo-V2.5-Pro 的 prefill 计算量大致相当于 10 层 GQA 模型，因此其原始推理成本显著低于行业平均，并保留约 2x–3x 的利润空间。

#产品更新#基础设施#大模型

阅读原始全文