返回精选
AI 精选动态 智能评分 70

ARC-AGI-3 benchmark 5月1日 GPT-5.5: 0.43% Opus 4.7: 0.18% 3月25日 Opus 4.6 0.2% GPT-5.4 0.3% Gem...

来源: twitter关注列表
作者: 马东锡 NLP (@dongxi_nlp)
发布于: 2026-05-01
收录于: 2026-05-01
AI 推荐理由
该结果直接衡量模型在未知抽象任务上的泛化与推理上限,为模型路线图、研发投入与评估标准提供硬性参照,对判断AGI进展与产业预期具有关键信号价值。
核心解读
ARC-AGI-3 基准在5月1日与3月25日两轮测试中显示,GPT-5.5、Opus 4.7、Gemini 3.1 等前沿模型得分仍低于1%,Grok 4.20 得零分,反映通用人工智能任务上的突破依然有限。短期内模型迭代未显著缩小与人类能力的差距,凸显评估体系对高阶推理与泛化能力的压力。
#基准测试#模型评估#AGI进展