AI 精选动态智能评分 65

DeepSeek 开源投机解码框架 DSpark

来源: twitter关注列表

作者: Berryxia.AI (@berryxia)

发布于: 2026-06-28

收录于: 2026-06-28

AI 推荐理由

本文详细披露了 DSpark 的两项核心技术（Markov head 与置信度调度）及真实生产环境提速数据，值得阅读原文以获取可复现的优化细节。

核心解读

DeepSeek 开源 DSpark 投机解码框架，通过并行 backbone 加顺序 Markov head 解决后缀衰减，并引入置信度调度实现负载感知验证。在 DeepSeek-V4 生产环境中，单用户生成速度比 MTP-1 基线快 60-85%，吞吐提升 1.5x 到 5x，且不影响输出质量。开源内容包括模型 checkpoint 和训练代码（MIT 协议），与北京大学联合开发。

全文

兄弟们，DeepSeek开源了DSpark！一个投机解码框架，不是新模型，是推理优化。核心问题：传统投机解码里，一个小的draft模型先猜一串token，然后大模型一次性验证。问题是猜的越后面越容易错，验证错误的猜测也浪费GPU算力。 DSpark的解法： 1. 并行backbone + 顺序head混合。纯并行猜测速度快，但后面的token会衰减，因为每个位置猜的时候不知道前面实际采样了什么。 DSpark加了一个小的Markov head，用前一个token调整当前猜测，解决了后缀衰减问题。 2. 置信度调度。加了一个置信度head，估算每个draft token的存活概率。再配合一个负载感知调度器，GPU空闲时多验证几个token，忙碌时少验证。不是所有猜的token都值得检查，只检查那些可能正确的部分。效果：在DeepSeek-V4生产环境中，单用户生成速度比MTP-1基线快60-85%。不同场景下吞吐提升1.5x到5x。开源内容： - 模型checkpoint：`DeepSeek-V4-Pro-DSpark` 和 `DeepSeek-V4-Flash-DSpark`，复用现有V4权重，附加draft模块 - 训练代码：MIT协议的DeepSpec代码库 - 与北京大学联合开发为什么重要：投机解码一直被认为"理论好但实战难"。 DSpark证明了在真实生产系统中，投机解码能稳定提速60%以上，而且不影响输出质量。 DeepSeek已经部署在生产环境里了。 ![photo](https://pbs.twimg.com/media/HL6ZOReb0AAkI7L.jpg) > **引用原帖 Dmytro Dzhulgakov (@dzhulgakov):** > DSpark from @deepseek_ai ingeniously integrates many speculative decoding ideas to achieve 1.5x to 5x higher throughput in a real production system > Let's understand it with 10 ideas, starting from the very basics 🧵 https://t.co/g7s3w40csZ > https://x.com/dzhulgakov/status/2070922887595499930 Berryxia.AI (@berryxia): https://t.co/u3FVesGoMo

#开源#技术#AI

阅读原始全文