AI 精选动态
智能评分 79
Kog 推出 2B 编码模型 Tech Preview
AI 推荐理由
值得点开其公开的 monokernel deep dive 和 Delayed Tensor Parallelism 研究,重点看高吞吐推理、GPU 调度与模型并行的协同设计是否可复现。核心解读
Kog (@Kog__AI) 开放了一个 2B coding model 的 Tech Preview,并表示其在单次请求下可在 8× AMD MI300X 上达到 3,000+ output tokens/s、在 8× NVIDIA H200 上达到 2,100 tokens/s,测试条件为 FP16 且未使用 speculative decoding。作为对比,文中指出高端 GPU 上 2B 到 8B 模型的典型解码速度约为 100 到 300 tokens/s。Kog 还称其将 LLM decoding 视为 memory-streaming 问题,通过 monokernel、减少同步开销、按 MI300X chiplet 拓扑映射内存访问,以及延迟 tensor-parallel communication 的模型设计,实现了 runtime、GPU code 与 model design 的协同优化。