AI 精选动态
智能评分 74
Qwen3.7-Max 登顶 56.6
AI 推荐理由
这条信息值得点开原文,重点看其在推理、agent 和 coding 维度的分项提升,以及幻觉率下降是否主要来自更高 abstention 而非更强事实记忆。核心解读
Artificial Analysis 公布,Alibaba 的 Qwen3.7 Max 在 Artificial Analysis Intelligence Index 上得分 56.6,较 Qwen3.6 Max Preview 的 51.8 提升 4.8 分。该提升主要来自科学推理、agentic 能力和编程:CritPt 从 3.7% 升至 13.4%,HLE 从 28.9% 升至 38.1%,TerminalBench Hard 从 43.9% 升至 50.8%,GDPval-AA 从 1504 升至 1546。报告同时指出,Qwen3.7 Max 在 AA-Omniscience 上准确率从 37.7% 降至 30.1%,但幻觉率从 44.2% 降至 22.9%,且其评测使用了 96.7M 输出 tokens,较 Qwen3.6 Max Preview 的 73.9M 增加约 31%;上下文窗口从 256K 扩展到 1M tokens,价格尚未公布,仍为 proprietary closed weights。