AI 精选动态
智能评分 65
DeepSeek 开源投机解码框架 DSpark
AI 推荐理由
本文详细披露了 DSpark 的两项核心技术(Markov head 与置信度调度)及真实生产环境提速数据,值得阅读原文以获取可复现的优化细节。核心解读
DeepSeek 开源 DSpark 投机解码框架,通过并行 backbone 加顺序 Markov head 解决后缀衰减,并引入置信度调度实现负载感知验证。在 DeepSeek-V4 生产环境中,单用户生成速度比 MTP-1 基线快 60-85%,吞吐提升 1.5x 到 5x,且不影响输出质量。开源内容包括模型 checkpoint 和训练代码(MIT 协议),与北京大学联合开发。
全文
兄弟们,DeepSeek开源了DSpark!
一个投机解码框架,不是新模型,是推理优化。
核心问题:传统投机解码里,一个小的draft模型先猜一串token,然后大模型一次性验证。
问题是猜的越后面越容易错,验证错误的猜测也浪费GPU算力。
DSpark的解法:
1. 并行backbone + 顺序head混合。
纯并行猜测速度快,但后面的token会衰减,因为每个位置猜的时候不知道前面实际采样了什么。
DSpark加了一个小的Markov head,用前一个token调整当前猜测,解决了后缀衰减问题。
2. 置信度调度。
加了一个置信度head,估算每个draft token的存活概率。再配合一个负载感知调度器,GPU空闲时多验证几个token,忙碌时少验证。不
是所有猜的token都值得检查,只检查那些可能正确的部分。
效果:在DeepSeek-V4生产环境中,单用户生成速度比MTP-1基线快60-85%。
不同场景下吞吐提升1.5x到5x。
开源内容:
- 模型checkpoint:`DeepSeek-V4-Pro-DSpark` 和 `DeepSeek-V4-Flash-DSpark`,复用现有V4权重,附加draft模块
- 训练代码:MIT协议的DeepSpec代码库
- 与北京大学联合开发
为什么重要:投机解码一直被认为"理论好但实战难"。
DSpark证明了在真实生产系统中,投机解码能稳定提速60%以上,而且不影响输出质量。
DeepSeek已经部署在生产环境里了。

> **引用原帖 Dmytro Dzhulgakov (@dzhulgakov):**
> DSpark from @deepseek_ai ingeniously integrates many speculative decoding ideas to achieve 1.5x to 5x higher throughput in a real production system
> Let's understand it with 10 ideas, starting from the very basics 🧵 https://t.co/g7s3w40csZ
> https://x.com/dzhulgakov/status/2070922887595499930
Berryxia.AI (@berryxia): https://t.co/u3FVesGoMo