AI 精选动态智能评分 70

ARC-AGI-3 benchmark 5月1日 GPT-5.5: 0.43% Opus 4.7: 0.18% 3月25日 Opus 4.6 0.2% GPT-5.4 0.3% Gem...

来源: twitter关注列表

作者: 马东锡 NLP (@dongxi_nlp)

发布于: 2026-05-01

收录于: 2026-05-01

AI 推荐理由

该结果直接衡量模型在未知抽象任务上的泛化与推理上限，为模型路线图、研发投入与评估标准提供硬性参照，对判断AGI进展与产业预期具有关键信号价值。

核心解读

ARC-AGI-3 基准在5月1日与3月25日两轮测试中显示，GPT-5.5、Opus 4.7、Gemini 3.1 等前沿模型得分仍低于1%，Grok 4.20 得零分，反映通用人工智能任务上的突破依然有限。短期内模型迭代未显著缩小与人类能力的差距，凸显评估体系对高阶推理与泛化能力的压力。

#基准测试#模型评估#AGI进展