AI 精选动态
智能评分 60
Google开源新模型
AI 推荐理由
如果关注本地推理和编辑式生成,这篇值得看它如何用 256-token 并行草稿、MoE 激活参数和量化显存占用换取速度。核心解读
Google 发布了实验性开源模型 DiffusionGemma,采用类似图像扩散的并行生成方式,一次先起草整个 256-token block,再经过多轮精炼收敛,而不是按 token 逐个生成。Google 表示它在专用 GPU 上最高可比常规 Gemma 快 4 倍,在 H100 上可达 1000+ tokens/sec,在 RTX 5090 上可达 700+ tokens/sec;该模型是 26B Mixture of Experts,激活参数仅 3.8B,量化后可放入 18GB VRAM 以下。Google 还表示它的输出质量低于标准 Gemma 4,定位是追求速度的本地工作场景,权重已在 Hugging Face 以 Apache 2.0 许可证开放。