AI 精选动态
智能评分 70
ARC-AGI-3 benchmark 5月1日 GPT-5.5: 0.43% Opus 4.7: 0.18% 3月25日 Opus 4.6 0.2% GPT-5.4 0.3% Gem...
AI 推荐理由
该结果直接衡量模型在未知抽象任务上的泛化与推理上限,为模型路线图、研发投入与评估标准提供硬性参照,对判断AGI进展与产业预期具有关键信号价值。核心解读
ARC-AGI-3 基准在5月1日与3月25日两轮测试中显示,GPT-5.5、Opus 4.7、Gemini 3.1 等前沿模型得分仍低于1%,Grok 4.20 得零分,反映通用人工智能任务上的突破依然有限。短期内模型迭代未显著缩小与人类能力的差距,凸显评估体系对高阶推理与泛化能力的压力。