AI 精选动态
智能评分 67
MiMo API 降价
AI 推荐理由
这条内容除了价格调整,还给出了分层 KV cache 优化、1:7 稀疏比和 70 层 MiMo-V2.5-Pro 对齐 10 层 GQA 的成本结构,适合关注推理降本和 API 定价策略的人继续看后续技术博客。核心解读
MiMo 团队解释了其 API 降价原因:Input(Cache Hit)最高降价 99%,核心来自推理框架支持面向 SWA 的分层 KV cache 优化。生产推理引擎测试显示,该优化将缓存 token 容量提升 5 倍,相当于缓存成本下降 80%;同时,Hybrid 模型中多个 Full Attention 模块之间的 Cache Read Overlap 进一步降低了实际成本。Input(Cache Miss)和 Output 价格也下调了 60%–80%,主要受益于模型架构带来的 1:7 Full:SWA 稀疏比,70 层 MiMo-V2.5-Pro 的 prefill 计算量大致相当于 10 层 GQA 模型,因此其原始推理成本显著低于行业平均,并保留约 2x–3x 的利润空间。