- AI HOT 精选动态

AI 精选动态智能评分 60

来源: twitter关注列表

作者: Artificial Analysis (@ArtificialAnlys)

发布于: 2026-05-11

收录于: 2026-05-11

AI 推荐理由

为开发者提供了横向对比编码代理实际工程能力的系统性基准，包含成本、耗时和通过率等关键指标，有参考价值。

核心解读

Artificial Analysis 发布了 AI 编码代理基准评测，基于 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA 三个基准，对多个模型和 Harness 的代码代理性能、成本和时间进行对比分析。

#编码代理基准#模型评测#开发者工具