- AI HOT 精选动态

AI 精选动态智能评分 65

来源: twitter关注列表

作者: Epoch AI (@EpochAIResearch)

发布于: 2026-05-12

收录于: 2026-05-12

AI 推荐理由

FrontierMath 是 AI 数学推理领域的重要评测基准，发现 33% 问题存在错误将对模型评估和开发产生重大影响。

核心解读

对 FrontierMath 基准测试进行 AI 辅助审查发现，约三分之一的问题存在致命错误，经人工复核后将发布修正后的数据集和更新分数。

#AI benchmark#数据质量#模型评估