AI 精选动态
智能评分 60
AI 推荐理由
为开发者提供了横向对比编码代理实际工程能力的系统性基准,包含成本、耗时和通过率等关键指标,有参考价值。核心解读
Artificial Analysis 发布了 AI 编码代理基准评测,基于 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA 三个基准,对多个模型和 Harness 的代码代理性能、成本和时间进行对比分析。