AI 精选动态
智能评分 60
AI 推荐理由
该基准直接评估AI在高级数学推理方面的能力,为衡量模型进展提供权威指标,且由OpenAI支持,具有重要研究价值。核心解读
Epoch AI发布了FrontierMath: Tiers 1-4——一个涵盖大学到研究水平的数学推理基准测试。目前正在进行由OpenAI支持的AI辅助审核,发现三分之一的问题存在错误,待人工复核后更新数据集。