AI 精选动态智能评分 77

Artificial Analysis 和 IBM Research 发布 ITBench-AA

来源: twitter关注列表

作者: Artificial Analysis (@ArtificialAnlys)

发布于: 2026-05-27

收录于: 2026-05-27

AI 推荐理由

该基准把企业 IT 代理任务拆成可复现的 Kubernetes 故障根因识别流程，并给出前沿模型低于 50% 的统一对比结果，适合关注代理式评测和企业场景能力边界的人直接查看榜单与论文。

核心解读

Artificial Analysis 与 IBM Research 联合推出 ITBench-AA，这是一个用于评估模型在企业 IT 代理式任务上的新基准系列，首个场景是 Site Reliability Engineering（SRE）。该基准包含 59 个 SRE 任务，其中 40 个为公开任务、19 个为全新保留任务，任务覆盖 Kubernetes 故障响应，要求模型通过日志、依赖关系追踪、告警、指标和拓扑信息识别根因实体。测试采用开源 Stirrup harness，在 59 个任务 × 3 次重复的平均分上，Claude Opus 4.7（Adaptive Reasoning, Max Effort）以 47% 领先，GPT-5.5（xhigh）为 46%，Qwen3.7 Max 为 42%，所有前沿模型均低于 50%；开源权重模型中 GLM-5.1（Reasoning）以 40% 领先。

#基准测试#开发者工具#行业动态

阅读原始全文