AI 精选动态智能评分 72

Qwen3.7-Max 跻身 ITBench-AA 第3

来源: twitter关注列表

作者: Alibaba Cloud (@alibaba_cloud)

发布于: 2026-05-28

收录于: 2026-05-28

AI 推荐理由

可以重点看其评测方法：它把 Kubernetes 事故排障拆成可重复的根因定位任务，并用统一 harness 做 apples-to-apples 比较，适合判断模型在企业 IT/运维智能体场景的真实能力边界。

核心解读

Artificial Analysis 与 IBM Research 发布 ITBench-AA，这是一个用于评估模型在 agentic enterprise IT 任务上的新基准，首个场景是 Site Reliability Engineering（SRE）。该基准共包含 59 个 SRE 任务，其中 40 个公开任务、19 个全新留出任务；每个任务都提供 Kubernetes 故障快照，包含 alerts、events、traces、metrics、logs 和应用拓扑，要求模型在最多 100 轮、每任务 3 次重复的 open-source Stirrup harness 中定位根因实体。结果显示 Claude Opus 4.7（Adaptive Reasoning, Max Effort）以 47% 领先，GPT-5.5（xhigh）46%，Qwen3.7 Max 42%；所有前沿模型都低于 50%，open weights 中 GLM-5.1（Reasoning）以 40% 领先，DeepSeek V4 Pro（Reasoning, Max Effort）38%，Gemma 4 31B（Reasoning）37%。

#基准测试#智能体#行业动态

阅读原始全文