AI 精选动态智能评分 66

Gemini 3.5 Flash 登顶基准

来源: twitter关注列表

作者: Simon (@tokumin)

发布于: 2026-05-20

收录于: 2026-05-21

AI 推荐理由

建议重点看原文与基准方法页，核对 Google 官方宣称与 Artificial Analysis 复现结果之间的差异，以及 4 倍速度、低于一半成本这两个指标的测试口径。

核心解读

Mercor 转发称，Google 的 Gemini 3.5 Flash 在 Artificial Analysis 复现的 APEX-Agents-AA leaderboard 上以 47.1% 排名第一。该成绩比 GPT-5.5 的 37.7% 高 9.4 个百分点，也比 Gemini 3 Flash 的 27.7% 高 19.4 个百分点；Google 同时表示 Gemini 3.5 Flash 是其最强的 agentic 和 coding 模型之一，速度达到同类 frontier 模型的 4 倍，成本通常低于一半，并已于当天 GA。Artificial Analysis 还披露，该基准共评测 452 个任务，源自公开的 APEX-Agents 数据集，测试长周期、跨应用的专业工作流，原始论文中 Gemini 3 Flash（Thinking=High）在 Pass@1 上为 24.0%，位列前茅但低于该复现榜单中的 Gemini 3.5 Flash 结果。

#模型发布#基准测试#智能体

阅读原始全文