返回精选
AI 精选动态 智能评分 77

Qwen3.7 Max

来源: twitter关注列表
作者: Artificial Analysis (@ArtificialAnlys)
发布于: 2026-05-21
收录于: 2026-05-21
AI 推荐理由
建议点开原文看完整 benchmark 拆分和与 frontier 模型的对比,因为这次提升并非单纯来自知识准确率,而是与 abstention、幻觉率和推理型评测分项变化相关。
核心解读
Artificial Analysis 评测 Alibaba 的新旗舰闭源模型 Qwen3.7 Max,称其在 Artificial Analysis Intelligence Index 上得分 56.6,较 4 月发布的 Qwen3.6 Max Preview 的 51.8 提升 4.8 分,但仍落后于 OpenAI、Anthropic 和 Google 的模型。该版本上下文窗口从 256K 提升到 1M tokens,仅支持文本输入输出;定价尚未公布,而 Qwen3.6 Max Preview 的 first-party API 价格为每 100 万输入 tokens $1.30、输出 tokens $7.80。对 reasoning 版本的细分显示,提升主要来自科学推理、agentic 能力和 coding,其中 CritPt 提升 9.7 个百分点、HLE 提升 9.2 个百分点、TerminalBench Hard 提升 6.9 个百分点、GDPval-AA 提升 42 Elo;同时 AA-Omniscience 的 accuracy 从 37.7% 降到 30.1%,hallucination rate 从 44.2% 降到 22.9%,模型用 96.7M output tokens 完成评测,较前代的 73.9M 增加约 31%。
#模型发布#基准测试#大模型