AI 精选动态
智能评分 65
AI 推荐理由
FrontierMath 是 AI 数学推理领域的重要评测基准,发现 33% 问题存在错误将对模型评估和开发产生重大影响。核心解读
对 FrontierMath 基准测试进行 AI 辅助审查发现,约三分之一的问题存在致命错误,经人工复核后将发布修正后的数据集和更新分数。