返回精选
AI 精选动态 智能评分 60

来源: twitter关注列表
作者: Epoch AI (@EpochAIResearch)
发布于: 2026-05-12
收录于: 2026-05-12
AI 推荐理由
该基准直接评估AI在高级数学推理方面的能力,为衡量模型进展提供权威指标,且由OpenAI支持,具有重要研究价值。
核心解读
Epoch AI发布了FrontierMath: Tiers 1-4——一个涵盖大学到研究水平的数学推理基准测试。目前正在进行由OpenAI支持的AI辅助审核,发现三分之一的问题存在错误,待人工复核后更新数据集。
#AI 基准测试#数学推理#OpenAI 支持