AI 精选动态
智能评分 60
Google 推出 Gemma 4 QAT 检查点 大幅压缩模型体积
AI 推荐理由
该检查点提供了显著的体积压缩与质量保障,值得关注并在移动端进行实测。核心解读
Google 发布了针对 Gemma 4 的 Quantization-Aware Training(QAT)检查点,将最小模型体积从 11.4GB 压缩至 1.1GB,文本专用模型仅 0.84GB;相较于传统后训练量化(PTQ)可能导致质量下降,QAT 在训练期间模拟压缩,使模型在权重被压缩时仍能学习,从而保持推理质量;此外,Google 还实现了面向移动端的静态激活、通道量化、目标 2 位量化以及 KV 缓存优化,降低手机端计算负担并延缓长对话记忆占用。