返回精选
AI 精选动态 智能评分 68

Kog AI 推理提速

来源: twitter关注列表
作者: Rohan Paul (@rohanpaul_ai)
发布于: 2026-05-29
收录于: 2026-05-29
AI 推荐理由
值得关注其 monokernel、同步重构与 Delayed Tensor Parallelism 的组合式实现,以及在 AMD MI300X 与 NVIDIA H200 上的可复现速度差异。
核心解读
Kog AI 在 8× AMD MI300X GPU 上实现了单用户 3,000 tokens/s,在 8× NVIDIA H200 上实现了 2,100 tokens/s,测试条件为 FP16、未使用 speculative decoding,且当前技术预览基于 2B 模型。其方法把 LLM 解码视为内存流式传输问题,并通过联合优化 runtime、低层 GPU 代码和模型架构来提升速度;文中还提到常见低 batch 的 2B 到 8B 模型推理速度通常只有每请求约 100 到 300 tokens/s。
#模型发布#开发者工具#基础设施