AI 精选动态
智能评分 78
Xiaomi MiMo-V2.5-Pro-UltraSpeed
AI 推荐理由
这条内容同时给出了 1T MoE、单 8-GPU 节点、FP4 量化、DFlash 和开源权重,适合重点查看其系统与模型协同设计细节以及是否能迁移到通用 GPU 部署。核心解读
Xiaomi MiMo 与 TileRT_AI 联合发布 MiMo-V2.5-Pro-UltraSpeed,并开源其权重与 checkpoint。该方案在一个 1T 参数的 MoE 模型上实现了超过 1,000 tokens/s 的输出速度,使用的是单台标准 8-GPU 节点;官方明确对比了 Cerebras 的 wafer-scale integration 和 Groq 的纯片上 SRAM 芯片,强调自己是在通用 GPU 上达成该结果。技术上,模型侧使用 FP4 量化和 DFlash(block-masked parallel speculative decoding),系统侧由 TileRT 针对这些技术定制编译器与 kernel;API 版本宣称约 3 倍价格可获得约 10 倍输出体验提升,限时申请窗口为 6 月 8 日至 6 月 23 日(PDT),网页聊天服务在限时内免费。