AI 精选动态
智能评分 69
Gemma 4 12B
AI 推荐理由
值得重点看其统一多模态架构如何在 12B 规模下同时保留视觉、音频与 agentic reasoning,并评估这类“encoder-free”设计对本地部署与 LoRA 微调流程的影响。核心解读
Google 发布 Gemma 4 12B,称其为最新的开源模型,采用 Apache 2.0 许可,可在仅 16GB VRAM 的笔记本上本地运行,并支持 agentic reasoning、vision 和 audio。Google 说明该模型通过移除独立的视觉和音频编码器,把输入直接接入主干网络,使整体内存占用显著降低,同时性能接近其更大的 Gemma 模型,尤其是 26B 级别。视觉侧,原先的 550M 编码器(27 层 Transformer)被替换为 35M embedder,每个 48x48 像素 patch 只需一次 matmul,规模约缩小 15 倍;音频侧,原先的 300M 编码器(12 层 conformer)被去除,16kHz 原始音频按 40ms 分帧后直接投影进 LLM。