AI 精选动态智能评分 60

Google开源新模型

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-06-10

收录于: 2026-06-10

AI 推荐理由

如果关注本地推理和编辑式生成，这篇值得看它如何用 256-token 并行草稿、MoE 激活参数和量化显存占用换取速度。

核心解读

Google 发布了实验性开源模型 DiffusionGemma，采用类似图像扩散的并行生成方式，一次先起草整个 256-token block，再经过多轮精炼收敛，而不是按 token 逐个生成。Google 表示它在专用 GPU 上最高可比常规 Gemma 快 4 倍，在 H100 上可达 1000+ tokens/sec，在 RTX 5090 上可达 700+ tokens/sec；该模型是 26B Mixture of Experts，激活参数仅 3.8B，量化后可放入 18GB VRAM 以下。Google 还表示它的输出质量低于标准 Gemma 4，定位是追求速度的本地工作场景，权重已在 Hugging Face 以 Apache 2.0 许可证开放。

#开源#大模型#技术突破

阅读原始全文