AI 精选动态
智能评分 77
Artificial Analysis 和 IBM Research 发布 ITBench-AA
AI 推荐理由
该基准把企业 IT 代理任务拆成可复现的 Kubernetes 故障根因识别流程,并给出前沿模型低于 50% 的统一对比结果,适合关注代理式评测和企业场景能力边界的人直接查看榜单与论文。核心解读
Artificial Analysis 与 IBM Research 联合推出 ITBench-AA,这是一个用于评估模型在企业 IT 代理式任务上的新基准系列,首个场景是 Site Reliability Engineering(SRE)。该基准包含 59 个 SRE 任务,其中 40 个为公开任务、19 个为全新保留任务,任务覆盖 Kubernetes 故障响应,要求模型通过日志、依赖关系追踪、告警、指标和拓扑信息识别根因实体。测试采用开源 Stirrup harness,在 59 个任务 × 3 次重复的平均分上,Claude Opus 4.7(Adaptive Reasoning, Max Effort)以 47% 领先,GPT-5.5(xhigh)为 46%,Qwen3.7 Max 为 42%,所有前沿模型均低于 50%;开源权重模型中 GLM-5.1(Reasoning)以 40% 领先。