返回精选
AI 精选动态 智能评分 66

Gemini 3.5 Flash 登顶基准

来源: twitter关注列表
作者: Simon (@tokumin)
发布于: 2026-05-20
收录于: 2026-05-21
AI 推荐理由
建议重点看原文与基准方法页,核对 Google 官方宣称与 Artificial Analysis 复现结果之间的差异,以及 4 倍速度、低于一半成本这两个指标的测试口径。
核心解读
Mercor 转发称,Google 的 Gemini 3.5 Flash 在 Artificial Analysis 复现的 APEX-Agents-AA leaderboard 上以 47.1% 排名第一。该成绩比 GPT-5.5 的 37.7% 高 9.4 个百分点,也比 Gemini 3 Flash 的 27.7% 高 19.4 个百分点;Google 同时表示 Gemini 3.5 Flash 是其最强的 agentic 和 coding 模型之一,速度达到同类 frontier 模型的 4 倍,成本通常低于一半,并已于当天 GA。Artificial Analysis 还披露,该基准共评测 452 个任务,源自公开的 APEX-Agents 数据集,测试长周期、跨应用的专业工作流,原始论文中 Gemini 3 Flash(Thinking=High)在 Pass@1 上为 24.0%,位列前茅但低于该复现榜单中的 Gemini 3.5 Flash 结果。
#模型发布#基准测试#智能体