AI 精选动态智能评分 69

Gemma 4 12B

来源: twitter关注列表

作者: Chubby♨️ (@kimmonismus)

发布于: 2026-06-03

收录于: 2026-06-03

AI 推荐理由

值得重点看其统一多模态架构如何在 12B 规模下同时保留视觉、音频与 agentic reasoning，并评估这类“encoder-free”设计对本地部署与 LoRA 微调流程的影响。

核心解读

Google 发布 Gemma 4 12B，称其为最新的开源模型，采用 Apache 2.0 许可，可在仅 16GB VRAM 的笔记本上本地运行，并支持 agentic reasoning、vision 和 audio。Google 说明该模型通过移除独立的视觉和音频编码器，把输入直接接入主干网络，使整体内存占用显著降低，同时性能接近其更大的 Gemma 模型，尤其是 26B 级别。视觉侧，原先的 550M 编码器（27 层 Transformer）被替换为 35M embedder，每个 48x48 像素 patch 只需一次 matmul，规模约缩小 15 倍；音频侧，原先的 300M 编码器（12 层 conformer）被去除，16kHz 原始音频按 40ms 分帧后直接投影进 LLM。

#模型发布#开源#技术

阅读原始全文