AI 精选动态
智能评分 65
实测DSpark加速与延迟
AI 推荐理由
单并发时加速比最高,延迟极低,值得关注后续合并后的性能核心解读
SGLang 通过 DSpark 实测显示,数学Prompt 预测 3.37 个 token,日常对话 3 个,代码 3.52 个,在 1K 长度 Prompt 下以 8 卡 B200 GPU 达到 297 token/s,较未使用 DSpark 的 164 token/s 提升 1.81 倍,单并发加速最高,超过 8 并发时提升降至 1.2‑1.3 倍,TPOT 延迟 2.9‑5.2 ms,几乎可忽略。
全文
SGLang 的 DSpark 实测数据在PR里放出了, 几个测试场景基本都能达到预测3个token, 其中数学类prompt是3.37个, 日常对话是3个, 代码是3.52个(果然代码是废token比较多的).
最亮眼的是加速比了, 在1K长度prompt下加速比来到了1.81倍. 测试使用的是8卡B200, 速度来到了 297 token/s. 而不使用DSpark 则是 164 token/s.
另外作者还测试了不同并发情况下的加速比, 目前来看单并发提升是最高的, 而超过8并发则只有1.2-1.3倍的提速了, 主要还是把GPU打满了.
另外比较震惊的数据时 DSpark 的 TPOT (每个输出 Token 的耗时) 只有2.9-5.2ms, 说明了这个DSpark内置的神经网络层运行得特别快. DSpark带来的延迟基本可以忽略不计了.
注意这个PR还没合并, 如果想尝试可以单独Fork这个PR29538.

