AI 精选动态
智能评分 68
Kog AI 推理提速
AI 推荐理由
值得关注其 monokernel、同步重构与 Delayed Tensor Parallelism 的组合式实现,以及在 AMD MI300X 与 NVIDIA H200 上的可复现速度差异。核心解读
Kog AI 在 8× AMD MI300X GPU 上实现了单用户 3,000 tokens/s,在 8× NVIDIA H200 上实现了 2,100 tokens/s,测试条件为 FP16、未使用 speculative decoding,且当前技术预览基于 2B 模型。其方法把 LLM 解码视为内存流式传输问题,并通过联合优化 runtime、低层 GPU 代码和模型架构来提升速度;文中还提到常见低 batch 的 2B 到 8B 模型推理速度通常只有每请求约 100 到 300 tokens/s。