AI 精选动态
智能评分 72
Qwen3.7-Max 跻身 ITBench-AA 第3
AI 推荐理由
可以重点看其评测方法:它把 Kubernetes 事故排障拆成可重复的根因定位任务,并用统一 harness 做 apples-to-apples 比较,适合判断模型在企业 IT/运维智能体场景的真实能力边界。核心解读
Artificial Analysis 与 IBM Research 发布 ITBench-AA,这是一个用于评估模型在 agentic enterprise IT 任务上的新基准,首个场景是 Site Reliability Engineering(SRE)。该基准共包含 59 个 SRE 任务,其中 40 个公开任务、19 个全新留出任务;每个任务都提供 Kubernetes 故障快照,包含 alerts、events、traces、metrics、logs 和应用拓扑,要求模型在最多 100 轮、每任务 3 次重复的 open-source Stirrup harness 中定位根因实体。结果显示 Claude Opus 4.7(Adaptive Reasoning, Max Effort)以 47% 领先,GPT-5.5(xhigh)46%,Qwen3.7 Max 42%;所有前沿模型都低于 50%,open weights 中 GLM-5.1(Reasoning)以 40% 领先,DeepSeek V4 Pro(Reasoning, Max Effort)38%,Gemma 4 31B(Reasoning)37%。