AI 精选动态
智能评分 65
OpenRouter continuously runs GPQA and TAU-Bench on most open-weight models
AI 推荐理由
AutoExacto 是 OpenRouter 内部的模型评测框架,提供自动化基准测试并降低开发者对开源模型的信任成本。核心解读
OpenRouter 与 Parasail.io 和 Zai.org 合作,使用 AutoExacto meta-benchmark 对开源模型进行自动化评测并公开结果,该工具被默认用于路由模型调用,AutoExacto 基于 GPQA 和 TAU-Bench,模型排行榜显示 Parasail.io 和 Zai.org 排名靠前。
全文
Tip: OpenRouter continuously runs GPQA and TAU-Bench on most open-weight models and publishes the results publicly.
This informs our AutoExacto meta-benchmark, used by default when routing tool calls.
Here, @Parasail_io and @Zai_org rank first: https://openrouter.ai/z-ai/glm-5.2#performance https://t.co/0dsUuR5Tsq

OpenRouter (@OpenRouter): More about AutoExacto: https://t.co/x9tJDRDBst