AI 精选动态智能评分 79

Kog 推出 2B 编码模型 Tech Preview

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-05-28

收录于: 2026-05-28

AI 推荐理由

值得点开其公开的 monokernel deep dive 和 Delayed Tensor Parallelism 研究，重点看高吞吐推理、GPU 调度与模型并行的协同设计是否可复现。

核心解读

Kog (@Kog__AI) 开放了一个 2B coding model 的 Tech Preview，并表示其在单次请求下可在 8× AMD MI300X 上达到 3,000+ output tokens/s、在 8× NVIDIA H200 上达到 2,100 tokens/s，测试条件为 FP16 且未使用 speculative decoding。作为对比，文中指出高端 GPU 上 2B 到 8B 模型的典型解码速度约为 100 到 300 tokens/s。Kog 还称其将 LLM decoding 视为 memory-streaming 问题，通过 monokernel、减少同步开销、按 MI300X chiplet 拓扑映射内存访问，以及延迟 tensor-parallel communication 的模型设计，实现了 runtime、GPU code 与 model design 的协同优化。

#基础设施#模型发布#技术

阅读原始全文