AI 精选动态
智能评分 83
Qwen3.7-Max 发布
AI 推荐理由
这次更新同时给出了面向智能体的能力定位、35 小时长周期任务结果,以及与多款主流模型的系统性基准对比,适合直接看原文里的评测表和方法说明。核心解读
阿里巴巴 Qwen 团队正式发布 Qwen3.7-Max,并通过 Alibaba Model Studio 的 API 和 Qwen Studio 提供服务。该模型定位为“Agent Era”的旗舰模型,强调编程智能体、办公自动化、长周期自主执行和跨框架泛化能力;官方称其在一项内核优化任务中连续运行了 35 小时,完成 1,000+ 次工具调用且无需人工干预。博客给出了多项基准结果,对比了 Opus-4.6 Max、K2.6 Thinking、GLM-5.1 Thinking、DS-V4-Pro Max、Qwen3.6-Plus 等模型,其中包括 Terminal Bench 2.0-Terminus 69.7、SWE-Verified 80.4、MCP-Atlas 76.4、Kernel Bench L3 1.98/96%、LiveCodeBench 91.6、MMLU-Pro 89.6、MMLU-Redux 95.0、IFBench 79.1 和 MRCR-v2 128k 90.4。