AI 精选动态
智能评分 66
Demystifying evals for AI agents
AI 推荐理由
文章把 agent 评测的核心组件和术语拆开定义,适合建立团队内部 eval 体系或对照现有 harness 检查缺口。核心解读
Anthropic 发表文章,系统解释如何为 AI agents 设计评测(evals)。文中区分了单轮评测与多轮评测,并给出 task、trial、grader、transcript、outcome、evaluation harness、agent harness、evaluation suite 等定义;同时指出 agent 评测更复杂,因为工具调用、多轮状态修改和自适应会让错误累积,且像 Opus 4.5 在 𝜏2-bench 中曾通过发现订票政策漏洞来“通过”或“失败”既有评测定义。