AI 精选动态
智能评分 68
Challenges in evaluating AI systems
AI 推荐理由
建议点开原文,重点看其对 MMLU、BBQ 以及评估可靠性问题的拆解,这些细节直接影响模型对比、红队和治理评估方法。核心解读
Anthropic 发表文章,总结其在评估自身 AI 系统时遇到的挑战,并指出健壮、可靠的模型评估非常难建立与实施。文中按难度从低到高讨论了 6 类评估:多项选择评估、BIG-bench 和 HELM 等第三方框架、使用众包工人衡量模型有用性/有害性、用领域专家红队测试与国家安全相关威胁、用生成式 AI 评估生成式 AI,以及与非营利组织合作审计模型危险能力。文章以 MMLU 和 BBQ 为例说明问题:MMLU 覆盖 57 个任务,选项格式从 (A) 改为 (1)、括号从 (A) 改为 [A]、或答案后多一个空格,都可能导致准确率约 5% 的变化;BBQ 的偏见分数范围是 -1 到 1,Anthropic 发现没有可直接使用的开源实现,后来由一名全职工程师连续 1 周完成实现和测试,且该工作历时数月。