返回精选
AI 精选动态 智能评分 68

Claude Opus 4.8 领跑评测

来源: twitter关注列表
作者: Artificial Analysis (@ArtificialAnlys)
发布于: 2026-05-28
收录于: 2026-05-28
AI 推荐理由
这次更新同时给出了通用能力、代理任务、科学推理和幻觉率的分项变化,并明确了与 GPT-5.5、Gemini 3.1 Pro 的差距,适合用来判断新一代前沿模型的相对位置。
核心解读
Artificial Analysis 公布 Claude Opus 4.8 的评测结果,称其以 61.4 分登上 Intelligence Index,较 Opus 4.7 提升 4.1 分,并以 1.2 分优势超过此前领先的 GPT-5.5 (xhigh)。Anthropic 也在 GDPval-AA 上重夺第一,Opus 4.8 得分 1,890 Elo,隐含对 GPT-5.5 的胜率约为 67%;同时它在 Humanity’s Last Exam 上领先 OpenAI 和 Google,在 CritPt 上高于 Gemini 3.1 Pro,但仍落后于 GPT-5.4 和 GPT-5.5。AA-Omniscience 上,Opus 4.8 得分 27.4,位列第二,落后 Gemini 3.1 Pro 的 32.9;准确率升至 46.6%,幻觉率约 35.9%,上下文窗口仍为 100 万 tokens,定价保持输入/输出每百万 tokens 5 美元/25 美元,缓存写入 6.25 美元、命中 0.5 美元。
#基准测试#模型发布#大模型