AI 精选动态智能评分 77

Qwen3.7-Max 登上 ITBench-AA 第3

来源: twitter关注列表

作者: Qwen (@Alibaba_Qwen)

发布于: 2026-05-28

收录于: 2026-05-28

AI 推荐理由

这是一个新的代理式企业 IT 基准，且给出了 59 题、100 轮、3 次重复、以及多款前沿模型的可比成绩，适合关注 agentic 评测与企业运维场景的人直接看原文方法细节。

核心解读

Artificial Analysis 与 IBM Research 推出 ITBench-AA，这是一个用于评估模型在企业 IT 代理式任务上的新基准，首批聚焦 Site Reliability Engineering（SRE）任务。ITBench-AA 的 SRE 部分包含 59 个任务，其中 40 个为公开任务、19 个为全新留出任务；任务场景基于 Kubernetes 故障快照，要求模型通过日志、依赖追踪、告警、指标与拓扑信息定位根因实体，评测采用 100 轮上限、每题 3 次重复的 Stirrup 开源执行框架。结果上，Claude Opus 4.7（Adaptive Reasoning, Max Effort）以 47% 领先，GPT-5.5（xhigh）为 46%，Qwen3.7 Max 为 42%；所有前沿模型得分都低于 50%，而 open weights 方面 GLM-5.1（Reasoning）以 40% 领先，DeepSeek V4 Pro（Reasoning, Max Effort）为 38%，Gemma 4 31B（Reasoning）为 37%。

#基准测试#智能体#模型发布

阅读原始全文