返回精选
AI 精选动态 智能评分 65

来源: twitter关注列表
作者: Epoch AI (@EpochAIResearch)
发布于: 2026-05-12
收录于: 2026-05-12
AI 推荐理由
FrontierMath 是 AI 数学推理领域的重要评测基准,发现 33% 问题存在错误将对模型评估和开发产生重大影响。
核心解读
对 FrontierMath 基准测试进行 AI 辅助审查发现,约三分之一的问题存在致命错误,经人工复核后将发布修正后的数据集和更新分数。
#AI benchmark#数据质量#模型评估