AI 精选动态
智能评分 66
Gemini 3.5 Flash 登顶基准
AI 推荐理由
建议重点看原文与基准方法页,核对 Google 官方宣称与 Artificial Analysis 复现结果之间的差异,以及 4 倍速度、低于一半成本这两个指标的测试口径。核心解读
Mercor 转发称,Google 的 Gemini 3.5 Flash 在 Artificial Analysis 复现的 APEX-Agents-AA leaderboard 上以 47.1% 排名第一。该成绩比 GPT-5.5 的 37.7% 高 9.4 个百分点,也比 Gemini 3 Flash 的 27.7% 高 19.4 个百分点;Google 同时表示 Gemini 3.5 Flash 是其最强的 agentic 和 coding 模型之一,速度达到同类 frontier 模型的 4 倍,成本通常低于一半,并已于当天 GA。Artificial Analysis 还披露,该基准共评测 452 个任务,源自公开的 APEX-Agents 数据集,测试长周期、跨应用的专业工作流,原始论文中 Gemini 3 Flash(Thinking=High)在 Pass@1 上为 24.0%,位列前茅但低于该复现榜单中的 Gemini 3.5 Flash 结果。