AI 精选动态智能评分 77

Qwen3.7 Max

来源: twitter关注列表

作者: Artificial Analysis (@ArtificialAnlys)

发布于: 2026-05-21

收录于: 2026-05-21

AI 推荐理由

建议点开原文看完整 benchmark 拆分和与 frontier 模型的对比，因为这次提升并非单纯来自知识准确率，而是与 abstention、幻觉率和推理型评测分项变化相关。

核心解读

Artificial Analysis 评测 Alibaba 的新旗舰闭源模型 Qwen3.7 Max，称其在 Artificial Analysis Intelligence Index 上得分 56.6，较 4 月发布的 Qwen3.6 Max Preview 的 51.8 提升 4.8 分，但仍落后于 OpenAI、Anthropic 和 Google 的模型。该版本上下文窗口从 256K 提升到 1M tokens，仅支持文本输入输出；定价尚未公布，而 Qwen3.6 Max Preview 的 first-party API 价格为每 100 万输入 tokens $1.30、输出 tokens $7.80。对 reasoning 版本的细分显示，提升主要来自科学推理、agentic 能力和 coding，其中 CritPt 提升 9.7 个百分点、HLE 提升 9.2 个百分点、TerminalBench Hard 提升 6.9 个百分点、GDPval-AA 提升 42 Elo；同时 AA-Omniscience 的 accuracy 从 37.7% 降到 30.1%，hallucination rate 从 44.2% 降到 22.9%，模型用 96.7M output tokens 完成评测，较前代的 73.9M 增加约 31%。

#模型发布#基准测试#大模型

阅读原始全文