AI 精选动态智能评分 68

Claude Opus 4.8 领跑评测

来源: twitter关注列表

作者: Artificial Analysis (@ArtificialAnlys)

发布于: 2026-05-28

收录于: 2026-05-28

AI 推荐理由

这次更新同时给出了通用能力、代理任务、科学推理和幻觉率的分项变化，并明确了与 GPT-5.5、Gemini 3.1 Pro 的差距，适合用来判断新一代前沿模型的相对位置。

核心解读

Artificial Analysis 公布 Claude Opus 4.8 的评测结果，称其以 61.4 分登上 Intelligence Index，较 Opus 4.7 提升 4.1 分，并以 1.2 分优势超过此前领先的 GPT-5.5 (xhigh)。Anthropic 也在 GDPval-AA 上重夺第一，Opus 4.8 得分 1,890 Elo，隐含对 GPT-5.5 的胜率约为 67%；同时它在 Humanity’s Last Exam 上领先 OpenAI 和 Google，在 CritPt 上高于 Gemini 3.1 Pro，但仍落后于 GPT-5.4 和 GPT-5.5。AA-Omniscience 上，Opus 4.8 得分 27.4，位列第二，落后 Gemini 3.1 Pro 的 32.9；准确率升至 46.6%，幻觉率约 35.9%，上下文窗口仍为 100 万 tokens，定价保持输入/输出每百万 tokens 5 美元/25 美元，缓存写入 6.25 美元、命中 0.5 美元。

#基准测试#模型发布#大模型

阅读原始全文