返回精选
AI 精选动态 智能评分 65

DeepSeek V4-Pro 推理模块

来源: twitter关注列表
作者: ModelScope (@ModelScope2022)
发布于: 2026-06-29
收录于: 2026-06-29
AI 推荐理由
因在多项基准上取得更高得分并优化长上下文效率,值得关注原文以获取完整技术细节。
核心解读
DeepSeek 团队在 ModelScope 上发布 DeepSeek‑V4‑Pro‑DSpark,加入推理解码模块,并在 LiveCodeBench 93.5、Codeforces 3206、SWE Verified 80.6、MRCR 1M 83.5 等指标上超越 DeepSeek‑V3.2,1M 上下文使用 27% 单-token 推理 FLOPs 与 10% KV 缓存,采用混合 CSA+HCA 注意力、mHC 与 Muon 优化器提升效率。
全文
DeepSeek-V4-Pro-DSpark lands on ModelScope~ Same DeepSeek-V4-Pro checkpoint, now with an added speculative decoding module for inference experiments. 🚀License: MIT 🤖 https://t.co/8MA1dMqGri 📄 https://t.co/b6OBoZBwZC 🏆 Pro-Max results: 93.5 on LiveCodeBench, 3206 Codeforces rating, 80.6 on SWE Verified, and 83.5 on MRCR 1M 📏 Long-context efficiency: at 1M context, DeepSeek-V4-Pro uses only 27% single-token inference FLOPs and 10% KV cache vs DeepSeek-V3.2 🧠 Architecture upgrades: hybrid CSA + HCA attention for 1M-token efficiency, mHC for stronger signal propagation, and Muon optimizer for faster, more stable training ![photo](https://pbs.twimg.com/media/HL_j5Q9XMAAp5my.jpg)
#模型发布#技术突破#产品更新