AI 精选动态智能评分 65

实测DSpark加速与延迟

来源: twitter关注列表

作者: karminski-牙医 (@karminski3)

发布于: 2026-06-30

收录于: 2026-06-30

AI 推荐理由

单并发时加速比最高，延迟极低，值得关注后续合并后的性能

核心解读

SGLang 通过 DSpark 实测显示，数学Prompt 预测 3.37 个 token，日常对话 3 个，代码 3.52 个，在 1K 长度 Prompt 下以 8 卡 B200 GPU 达到 297 token/s，较未使用 DSpark 的 164 token/s 提升 1.81 倍，单并发加速最高，超过 8 并发时提升降至 1.2‑1.3 倍，TPOT 延迟 2.9‑5.2 ms，几乎可忽略。

全文

SGLang 的 DSpark 实测数据在PR里放出了, 几个测试场景基本都能达到预测3个token, 其中数学类prompt是3.37个, 日常对话是3个, 代码是3.52个(果然代码是废token比较多的). 最亮眼的是加速比了, 在1K长度prompt下加速比来到了1.81倍. 测试使用的是8卡B200, 速度来到了 297 token/s. 而不使用DSpark 则是 164 token/s. 另外作者还测试了不同并发情况下的加速比, 目前来看单并发提升是最高的, 而超过8并发则只有1.2-1.3倍的提速了, 主要还是把GPU打满了. 另外比较震惊的数据时 DSpark 的 TPOT (每个输出 Token 的耗时) 只有2.9-5.2ms, 说明了这个DSpark内置的神经网络层运行得特别快. DSpark带来的延迟基本可以忽略不计了. 注意这个PR还没合并, 如果想尝试可以单独Fork这个PR29538. ![photo](https://pbs.twimg.com/media/HMCrTQ4WcAAOJfs.png) ![photo](https://pbs.twimg.com/media/HMCrTQ3WgAA7ATu.png)

#技术#模型#开源

阅读原始全文