返回精选
AI 精选动态 智能评分 79

Kog 推出 2B 编码模型 Tech Preview

来源: twitter关注列表
作者: Rohan Paul (@rohanpaul_ai)
发布于: 2026-05-28
收录于: 2026-05-28
AI 推荐理由
值得点开其公开的 monokernel deep dive 和 Delayed Tensor Parallelism 研究,重点看高吞吐推理、GPU 调度与模型并行的协同设计是否可复现。
核心解读
Kog (@Kog__AI) 开放了一个 2B coding model 的 Tech Preview,并表示其在单次请求下可在 8× AMD MI300X 上达到 3,000+ output tokens/s、在 8× NVIDIA H200 上达到 2,100 tokens/s,测试条件为 FP16 且未使用 speculative decoding。作为对比,文中指出高端 GPU 上 2B 到 8B 模型的典型解码速度约为 100 到 300 tokens/s。Kog 还称其将 LLM decoding 视为 memory-streaming 问题,通过 monokernel、减少同步开销、按 MI300X chiplet 拓扑映射内存访问,以及延迟 tensor-parallel communication 的模型设计,实现了 runtime、GPU code 与 model design 的协同优化。
#基础设施#模型发布#技术