返回精选
AI 精选动态 智能评分 74

Gemini 3.5 Flash 基准分析

来源: twitter关注列表
作者: Berryxia.AI (@berryxia)
发布于: 2026-05-20
收录于: 2026-05-20
AI 推荐理由
这条原文同时给出了智能、速度、幻觉率、agentic 能力和成本的完整对照,适合判断 Google 新一代 Flash 模型是否真正进入“高智能高速度”区间,以及其定价是否会改变实际使用决策。
核心解读
Artificial Analysis 获得 Google DeepMind 的预发布权限后,对 Gemini 3.5 Flash(high)进行了基准测试。该模型在 Artificial Analysis Intelligence Index 上得分 55,较 Gemini 3 Flash 提升 9 分,超过 Grok 4.3(53)和 Claude Sonnet 4.6(52);GDPval-AA 的 Elo 为 1656,较 Gemini 3 Flash(1204)和 Gemini 3.1 Pro(1314)更高,幻觉率从 92% 降至 61%,MMMU-Pro 达到 84%,输出速度超过 280 tokens/s,约比上一代快 70%。其代价是运行 Intelligence Index 的成本达到 $1,552,是 Gemini 3 Flash 的 5.5 倍、Gemini 3.1 Pro 的 75% 以上;定价为每 100 万输入 tokens $1.50、输出 tokens $9.00,较 Gemini 3 Flash 的 $0.5/$3 提高 3 倍,且上下文窗口仍为 1M。
#基准测试#模型发布#大模型