AI 精选动态智能评分 74

Gemini 3.5 Flash 基准分析

来源: twitter关注列表

作者: Berryxia.AI (@berryxia)

发布于: 2026-05-20

收录于: 2026-05-20

AI 推荐理由

这条原文同时给出了智能、速度、幻觉率、agentic 能力和成本的完整对照，适合判断 Google 新一代 Flash 模型是否真正进入“高智能高速度”区间，以及其定价是否会改变实际使用决策。

核心解读

Artificial Analysis 获得 Google DeepMind 的预发布权限后，对 Gemini 3.5 Flash（high）进行了基准测试。该模型在 Artificial Analysis Intelligence Index 上得分 55，较 Gemini 3 Flash 提升 9 分，超过 Grok 4.3（53）和 Claude Sonnet 4.6（52）；GDPval-AA 的 Elo 为 1656，较 Gemini 3 Flash（1204）和 Gemini 3.1 Pro（1314）更高，幻觉率从 92% 降至 61%，MMMU-Pro 达到 84%，输出速度超过 280 tokens/s，约比上一代快 70%。其代价是运行 Intelligence Index 的成本达到 $1,552，是 Gemini 3 Flash 的 5.5 倍、Gemini 3.1 Pro 的 75% 以上；定价为每 100 万输入 tokens $1.50、输出 tokens $9.00，较 Gemini 3 Flash 的 $0.5/$3 提高 3 倍，且上下文窗口仍为 1M。

#基准测试#模型发布#大模型

阅读原始全文