AI 精选动态智能评分 68

Kog AI 推理提速

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-05-29

收录于: 2026-05-29

AI 推荐理由

值得关注其 monokernel、同步重构与 Delayed Tensor Parallelism 的组合式实现，以及在 AMD MI300X 与 NVIDIA H200 上的可复现速度差异。

核心解读

Kog AI 在 8× AMD MI300X GPU 上实现了单用户 3,000 tokens/s，在 8× NVIDIA H200 上实现了 2,100 tokens/s，测试条件为 FP16、未使用 speculative decoding，且当前技术预览基于 2B 模型。其方法把 LLM 解码视为内存流式传输问题，并通过联合优化 runtime、低层 GPU 代码和模型架构来提升速度；文中还提到常见低 batch 的 2B 到 8B 模型推理速度通常只有每请求约 100 到 300 tokens/s。

#模型发布#开发者工具#基础设施

阅读原始全文