返回精选
AI 精选动态 智能评分 60

Google 推出 Gemma 4 QAT 检查点 大幅压缩模型体积

来源: twitter关注列表
作者: Rohan Paul (@rohanpaul_ai)
发布于: 2026-06-05
收录于: 2026-06-06
AI 推荐理由
该检查点提供了显著的体积压缩与质量保障,值得关注并在移动端进行实测。
核心解读
Google 发布了针对 Gemma 4 的 Quantization-Aware Training(QAT)检查点,将最小模型体积从 11.4GB 压缩至 1.1GB,文本专用模型仅 0.84GB;相较于传统后训练量化(PTQ)可能导致质量下降,QAT 在训练期间模拟压缩,使模型在权重被压缩时仍能学习,从而保持推理质量;此外,Google 还实现了面向移动端的静态激活、通道量化、目标 2 位量化以及 KV 缓存优化,降低手机端计算负担并延缓长对话记忆占用。
#模型发布#技术突破#产品更新