AI 精选动态
智能评分 74
Gemini 3.5 Flash 基准分析
AI 推荐理由
这条原文同时给出了智能、速度、幻觉率、agentic 能力和成本的完整对照,适合判断 Google 新一代 Flash 模型是否真正进入“高智能高速度”区间,以及其定价是否会改变实际使用决策。核心解读
Artificial Analysis 获得 Google DeepMind 的预发布权限后,对 Gemini 3.5 Flash(high)进行了基准测试。该模型在 Artificial Analysis Intelligence Index 上得分 55,较 Gemini 3 Flash 提升 9 分,超过 Grok 4.3(53)和 Claude Sonnet 4.6(52);GDPval-AA 的 Elo 为 1656,较 Gemini 3 Flash(1204)和 Gemini 3.1 Pro(1314)更高,幻觉率从 92% 降至 61%,MMMU-Pro 达到 84%,输出速度超过 280 tokens/s,约比上一代快 70%。其代价是运行 Intelligence Index 的成本达到 $1,552,是 Gemini 3 Flash 的 5.5 倍、Gemini 3.1 Pro 的 75% 以上;定价为每 100 万输入 tokens $1.50、输出 tokens $9.00,较 Gemini 3 Flash 的 $0.5/$3 提高 3 倍,且上下文窗口仍为 1M。