AI 精选动态
智能评分 72
FrontierCode 编码基准正式发布
AI 推荐理由
建议阅读原文深入了解 AI 编码三大时代演变和 FC 各难度层级的模型表现,为理解当前 Agentic 编程发展趋势提供重要参考。核心解读
METR_Evals 发布 FrontierCode 基准,用于评测 AI 编程能力,包含 3000+ 评分标准和 1000+ 小时维护人员验证的软件工程任务。Opus 4.8 在 FC Diamond 上得分为 13.8%,GPT 5.5 和 Opus 4.8 均未显著提升。相比 HumanEval 和 SWEBench,FrontierCode 聚焦可维护代码质量。历史数据显示 Opus 模型在 2025 年底 4 个月内从 41% 提升至 74%,反映 AI 编码能力快速进步。