返回精选
AI 精选动态 智能评分 77

Qwen3.7-Max 登上 ITBench-AA 第3

来源: twitter关注列表
作者: Qwen (@Alibaba_Qwen)
发布于: 2026-05-28
收录于: 2026-05-28
AI 推荐理由
这是一个新的代理式企业 IT 基准,且给出了 59 题、100 轮、3 次重复、以及多款前沿模型的可比成绩,适合关注 agentic 评测与企业运维场景的人直接看原文方法细节。
核心解读
Artificial Analysis 与 IBM Research 推出 ITBench-AA,这是一个用于评估模型在企业 IT 代理式任务上的新基准,首批聚焦 Site Reliability Engineering(SRE)任务。ITBench-AA 的 SRE 部分包含 59 个任务,其中 40 个为公开任务、19 个为全新留出任务;任务场景基于 Kubernetes 故障快照,要求模型通过日志、依赖追踪、告警、指标与拓扑信息定位根因实体,评测采用 100 轮上限、每题 3 次重复的 Stirrup 开源执行框架。结果上,Claude Opus 4.7(Adaptive Reasoning, Max Effort)以 47% 领先,GPT-5.5(xhigh)为 46%,Qwen3.7 Max 为 42%;所有前沿模型得分都低于 50%,而 open weights 方面 GLM-5.1(Reasoning)以 40% 领先,DeepSeek V4 Pro(Reasoning, Max Effort)为 38%,Gemma 4 31B(Reasoning)为 37%。
#基准测试#智能体#模型发布