AI 精选动态
智能评分 78
Gemini 4 12B 开模型支持本地多模态运算
AI 推荐理由
本地多模态运算方案值得复现验证,尤其是音频处理方法是否可推广到其他模型。该架构可能影响中小企业部署成本评估。核心解读
Google 发布 Gemini 4 12B 开源模型,通过统一架构实现音视频多模态输入处理。该模型与云端版本功能接近但“总内存占用显著降低”,本地运行仅需16GB VRAM。关键创新包括:(1) 用轻量嵌入模块替代视觉编码器,LLaMA取代视觉处理;(2) 直接将音频信号投影到文本token空间。模型在公开许可证下(Apache 2.0)发布,可从HuggingFace/Kaggle下载。该架构突破性消除了传统多模态模型的编码器分离机制,降低了推理延迟。