返回精选
AI 精选动态 智能评分 60

来源: twitter关注列表
作者: Artificial Analysis (@ArtificialAnlys)
发布于: 2026-05-11
收录于: 2026-05-11
AI 推荐理由
为开发者提供了横向对比编码代理实际工程能力的系统性基准,包含成本、耗时和通过率等关键指标,有参考价值。
核心解读
Artificial Analysis 发布了 AI 编码代理基准评测,基于 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA 三个基准,对多个模型和 Harness 的代码代理性能、成本和时间进行对比分析。
#编码代理基准#模型评测#开发者工具