AI 精选动态
智能评分 60
Google 发布 DiffusionGemma
AI 推荐理由
可关注其并行生成技术在本地部署的性能优势,适合评估加速推理方案。核心解读
Google 推出开源实验性模型 DiffusionGemma,采用 26B 参数的 MoE 架构,仅激活 3.8B 参数,量化后可在 18GB 显存运行,并实现每次前向生成 256 条 token,推理速度提升约 4 倍,H100 上可达 1000+ token/s,RTX 5090 上约 700+ token/s。